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بمه تحالى 


التعلم العميق والستخداماته في المعلوماتية الحيوية 


0 مشروع تعلم عميق في علم الجينوم وعلم البروتين تم حلها وشرحها 
باستخدام بايثون 


ترجمه واعداد: 


د. علاء طعيمة 


مقدمة المؤلف 

أظهر التعلم العميق نتائج واعدةفي مجال المعلوماتية الحياتية بمافي ذلك علم الجينوم والبروتينات. 
ومع ذلك هناك نقصفي القوى العاملة الماهرةفي التعلم العميقفي هذا التخصص. سيساعد هذا الكتاب 
الباحثين وعلماء البيانات على التميز عن الآخرين وحل مشاكل العالم الحقيقيفي مجال المعلوماتية 
الحياتية من خلال مجموعة من المشاريع. يغطي الكتاب اهم نماذج التعلم العميق المهمة التي يشيع 
استخدامها من قبل مجتمع البحث ويخوض في تفاصيل ماهيتها وكيفية عملها وتطبيقاتها العمليةفي علم 
الجينوم وعلم البروتينات. 

سيكون هذه الكتاب مفيداً للغاية لأولئك الذين o seno‏ مجال الذكاء الاصطناعي الذين يحاولون 
dela b i‏ مجان zal jill‏ الحيانية راركت الاين برق مجان al all‏ العا ie‏ 
يحاولون شق طريقهمني مجال الذكاء الاصطناعي. 


في هذا الكتاب» تنقل مشاريع التعلم العميقفي المعلوماتية الحيوية كل المعرفة اللازمة لتنفيذ مشاريع 
التعلم العميقفي مختلف مجالات المعلوماتية الحيوية. كل مشروع من هذه المشاريع فريد من نوعه 
مما يساعدك على إتقان الموضوع تدريجيًا. ستتعلم كيفية تصنيف تسلسلات الجينوم والبروتين 
باستخدام تماذج التعلم العميق وكذلك ستتعلم الكثير من المشاريع الجذابة الاخرى الي ستساعدكني 
اكتساب المعرفة لتطوير المعلوماتية الحياتية باستخدام التعلم العميق. 


لقد حاولت قدر المستطاع ان اترجم المشاريع الأكثر طرحآني مجال التعلم العميق للمعلومات 
الحيوية مع الشرح المناسب والكافيء ومع هذا يبقى عملاً بشرياً يحتمل النقص. فاذا كان لديك أي 
ملاحظات حول هذا الكتاب» فلا تتردد بمراسلتنا عبر بريدنا الالكتروني alaa.taima(Q)qu.edu.iq‏ . 


نأمل ان يساعد هذا الكتاب كل من يريد ان يدخلفي مجالات التعلم العميق والمعلوماتية الحيوية 
ومساعدة القارئ العربي على تعلم هذا المجالات. اسأل الله التوفيقني هذا العمل لأثراء المحتوى 
العربي الذي يفتقر أشد الافتقار إلى محتوى جيد ورصيننيٍ مجال التعلم الآلي والتعلم العميق وعلم 
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1 تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


Apply تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم‎ (1 
IMachine Learning Algorithms for Genomics Data Classification 
المقدمة‎ 

1. نظرة عامة 

في مجالات الاحياء الجزيئية molecular biology‏ وعلم الوراثة .genetics‏ الجينوم genome‏ هو 
كل المواد الجينية للكائن الحي. يتكون من حمض نووي ريبوزي منقوص الأكسجين DNA‏ (أو 
حمض نووي ريبوزي GRINA‏ فيروسات (RNA‏ يتضمن الجينوم NS‏ من الجينات genes‏ (مناطق 
الترميز (coding regions‏ والحمض النووي غير المشفر non-coding DNA‏ بالإضافة إلى 
الحمض النووي للميتوكوندريا mitochondrial DNA‏ والحمض النووي للبلاستيدات الخضراء 
-chloroplast DNA‏ تسمى دراسة الجينوم علم الجينوم genomics‏ يتضمن تفاعلات الجينات 
مع بعضها البعض ومع بيئة الشخص. تستخدم البيانات الجينوميةني مجال المعلوماتية الحيوية 
5+ لجمع وتخزين ومعالجة جينومات الكائنات الحية. تتطلب معالجة البيانات 
الجينومية قدرًا كبيرًا من تخزين البيانات وأجهزة وبرامج عالية الأداء للتحليل الإحصائي. 

التعلم الآلي Machine Learning (ML)‏ هو تطبيق للذكاء الاصطناعي Artificial Intelligence‏ 
CAT)‏ يتيح التعلم التلقائي والتحسين من التجربة دون البرمجة الصريحة والمعرفة ببيئة التعلم. الهدف 
الهم هو تطوير ونشر نظام كمبيوتر يمكنه التعلم GUB‏ دون أي تدخل بشري. بحكم التعريف يجب أن 
تكون قادرة على تعديل إجراءاتها من النتائج السابقة. 


أصبح التعلم الآلي أحد الأساليب الرئيسية للعديد من مهام أبحاث الجينوم اليوم» بمافي ذلك: 


وصف وتفسير مجموعات البيانات الجينومية واسعة النطاق. 

شرح لمجموعة واسعة من عناضر تسلسل الجينوميات. 

توقع تأثير الاختلاف الجيني على تسلسJ -DNA / RNA‏ 

تحديد احتمالية الإصابة بمرض معين وكذلك تحديد الوراثة الجينية. 

التعرف على الأنماط ووضع التنبؤات ووضع نموذج لتطور مرض معين أو علاجه. 

يمكن أن تكون التطبيقات المستقبلية للتعلم الآليني علم الجينوم: علم الصيدلة الجيني 
Ís «Pharmacogenomics‏ ات الفحص الجيني لحديثي الولادة newborn genetic‏ 
screening tools‏ والزراعةء وما إلى ذلك s‏ على أنواع مشاريع التعلم e JII‏ يمكننا تحديد تطبيقات 
محددة. للتصنيف (التعلم الخاضع للإشراف :(Supervised Learning‏ تصنيف التسلسلات الأقصر 
shorter sequences‏ إلى classes ots‏ (الشعبة .phylum‏ والجنس .genus‏ والأنوا اع «species‏ 
وما إلى ذلك)؛ الاستدلال النشئي للتسلسلات phylogenetic inference of the sequences‏ ؛ 


حم ذخ هن لح صن 


التعلم العميق واستخداماته في المعلوماتية الحيوية 


الكشف عن البلازميدات plasmids‏ والكروموسومات .chromosome‏ إيجاد مناطق الترميز 
tcoding regions‏ التنبؤ بالكروموسومفي الجينوميات البشرية؛ إلخ للتكتل clustering‏ (التعلم غير 
الخاضع للإشراف :(Unsupervised Learning‏ تجميع كونتيكات الميتاجونومية binning of‏ 
*metagenomics contigs‏ تحديد البلازميدات والكروموسومات؛ يقرأ التكتلفي الكروموسومات 


لتكتل أفضل؛ تجميع القراءات كمعالج أولي لتجميع القراءات» إلخ. 


في هذا المشروع» سوف نفهم بنية تسلسل DNA / RNA‏ / البروتين والتلاعب بها باستخدام مكتبات 
1 . سيوضح كيف يمكن استخدام خوارزميات التعلم الآلي لتصنيف تسلسل الحمض النووي 
send [DNA‏ ارون الريرى t Kendo oda RNA‏ سيت Role d dee je‏ بين موا زميات 
تصنيف التعلم الآلي التقليدية والحديثة لمجموعات البيانات الجينومية. سيتم تقديم مكتبة PyDNA‏ 
بسيطةفي Python‏ لمعالجة سلاسل تسلسل DNA | RNA‏ | البروتين وخوارزميات تصنيف التعلم 
J‏ 

2. تسلسل الحمض النووي 

استنادًا إلى المعهد الوطني لبحوث الجينوم البشري national Human Genome Research‏ 
Institute‏ فإن الحمض النووي الريبي منقوص الأكسجين Deoxyribonucleic Acid (DNA)‏ 
هو مركب كيميائي يتكون من التعليمات اللازمة لتطوير وتوجيه أنشطة جميع الكائنات الحية تقريبا. 
جزيء الحمض النووي هو هيكل حلزون مزدوج يتكون من خيطين مزدوجين ملتويين. يتكون الحمض 
النووي من أربع قواعد هي الأدينين adenine [A]‏ السيتوزين cytosine [C]‏ الجوانين guanine‏ 
[G]‏ أو الثايمين thymine [T]‏ تسلسل الحمض النووي DNA sequence‏ عملية مختبرية 
لتحديد تسلسل هذه القواعد الأربعةني جزيء الحمض النووي. يمكن العثور على مزيد من المعلومات 
حول تسلسل الحمض النووي في "مقدمة إلى تسلسل الحمض النووي". 

دعونا نلقي نظرة على معالجة سلاسل تسلسل الحمض النووي DNA sequence strings‏ 
0 باستخدام مكتبات Python‏ تم تنفیذ (em‏ استدعاءات الدوال المقدمةفي مكتبة 
DNA‏ مخصصةي Python‏ تسمی PYDNA‏ مزيد من الشرح حول هذه المكتبة موجود duy‏ 
هذه المقالة. 


3. التحقق من سلسلة تسلسل الحمض النووي 

يجب أن تحتوي سلسلة تسلسل الحمض النووي على أربعة نيوكليوتيدات قاعدية four base‏ 
"C" A" "[ nucleotides‏ "6" '1""]. تسمح هذه الدالة بالتحقق من تسلسل الحمض النووي 
باستخدام أي قاعدة مخصصة محددة من النيوكليوتيدات. 
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مثال: 

dna sequence string - 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTT" 
is dna result > PyDNA.is dna(dna sequence string) 
print (DNA sequence string:\n{}7. format (dna sequence string)) 
print("Is DNA:Nn()".format(is dna result)) 

النتائح: 

c 
DNA Sequence EE EOS 
ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTT 
55 DNA: 
fure 

مثال: 

dna sequence string ES 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTFE" 
كبك‎ Che e Shi = PyDNA.is dna(dna sequence string) 
print ("DNA sequence string: Mn()".format(dna sequence string)) 
print("Is DNA:WMn()".format(is dna result)) 

النتائح: 

c 


DNA sequence string: 
ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTFE 
Is DNA: 

False 


4. عد النيوكليوتيدات القاعدية في السلسلة النصية لتسلسل الحمض النووي 
تسمح الدالة أدناه بحساب نيوكليوتيدات تسلسل الحمض النووي DNA‏ بأي قاعدة مخصصة محددة. 
سيتم إرجاع طول تسلسل الحمض النووي Lai‏ 


مثال: 


dna sequence string - 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT" 

base sequence count, dna sequence length - 
PyDNA.dna count nucleotide (dna sequence string, 

Base sectence=| كور"‎ TOP Me UM. xe einn epe) 

print (DNA sequence string:\n{}7. format (dna sequence string)) 
print (DNA nucleotides count:\n{}“. format (base sequence count) ( 
print (DNA length: \n{}7. format (dna sequence length) ) 


النتائج: 


DNA sequence string: 
ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT 
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DNA nucleotides count: 

(Sv ere toc ا‎ 237 
DNA length: 

55 


idea 


dna sequence string E 
"ATYTRTCCYGGYAATRYTCGTAGTTAGRCTGATYTTATTGGYGCGAARATTYYTR"base sequence 


count, dna sequence length = 
PyDNA.dna count nucleotide (dna sequence string, 

BESE SELENE © AC M MIN TS LENG ENS LEE OE IRE NA 
Nucleotide Count:\n{}7. format (base sequence count) )print ("DNA 


length: Nn()".format(dna sequence length) ( 

النتائج: 
DNA Nucleotide Count:‏ 
s ey‏ ا Tov Io Me ret IPIS antec CENT e iii‏ 


DNA length: 
55 


5. عكس سلسلة تسلسل الحمض النووي 
تعمل الدالة التالية على عكس reverse‏ السلسلة النصية string‏ تسلسل الحمض النووي DNA‏ 


مڅال: 

dna sequence string > 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT ^ 
dna reverse sequence = PyDNA.dna sequence reverse(dna sequence string) 
print (DNA Sequence String: Nn()".format(dna sequence string)) 
print (Reverse DNA sequence: Wní)".format(dna reverse sequence)) 

النتائح: 

c 


DNA Sequence String: 

ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT 
Reverse DNA sequence: 
TTTTTTAAAAGCGCGGTTATTTTAGTCGGATTGATGCTTTTAAGGGCCCTATATA 


6. استكمال سلسلة تسلسل الحمض النووي 
يعتمد استكمال complementation‏ تسلسل DNA‏ على IUPAC Degeneracdies‏ 


. Conversion 


مثال: 


dna sequence test - 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT" 
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dna complement sequence - 

PyDNA.dna sequence complement (dna sequence test) 

print (DNA sequence string:\n{}7. format (dna sequence test)) 

print (“Complement DNA sequence:\n{}7. format (dna complement sequence) ) 


النتائج: 


DNA sequence string: 
ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT 
Complement DNA sequence: 
TATATAGGGCCCTTAAAAGCATCAATCCGACTAAAATAACCGCGCTTTTAAAAAA 


7. عكس-استكمال السلسلة النصية تسلسل الحمض النووي 
يتم تنفيذ الاستكمال العكسي reverse- complement‏ لسلسلة النصية لتسلسل 10115 باستخدام 


.dna sequence complement) t » dna sequence reverse() الدالتين‎ 


مثال: 

dna sequence string - 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTT" 
dna reverse complement sequence > 
PyDNA.dna sequence reverse complement (dna sequence string) 
print (DNA sequence string:\n{}7. format (dna sequence string)) 
print("Reverse-Complement DNA 
sequence: Mn()".format(dna reverse complement sequence)) 

النتائح: 

c 


ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTT 
AAATTTTCGCGCCAATAAAATCAGCCTAACTACGAAAATTCCCGGGATATAT 


ac .8‏ محتوى GC‏ في السلسلة النصية لتسلسل الحمض النووي 
يمثل محتوى (GC- Content) GC‏ النسبة المئوية للقواعد النيتروجينيةفي تسلسل الحمض النووي 
DNA‏ أو الحمض النووي الريبي RNA‏ 


مثال: 

dna sequence string - 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTT" 
gc content = PyDNA.dna count gc content(dna sequence string) 
print (DNA sequence string:\n{}7. format (dna sequence string)) 
print ("GC-content:Mn(j)".format (gc content)) 

النتائح: 

© 


DNA sequence string: 
ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTT 
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GC-content: 
30.56 


9. تحويل السلسلة النصية لتسلسل الحمض النووى إلى مصفوفة NumPy‏ 

تعد Python‏ الرقمية (NumP y)‏ مكتبة رئيسية للغة (Python ize p‏ مما يضيف es‏ للمصفوفات 
والمصفوفات الكبيرة متعددة الأبعاد. Gan‏ إلى جنب مع مجموعة كبيرة من الدوال الرياضية عالية 
المستوى للعمل على هذه المصفوفات. هذه المكتبة هي واحدة من أسرع المكتبات المتوفرةفي نظام 
بيانات Python‏ اليوم. 


يتم تجميع برنامج NumPy‏ الأساسي وكود C‏ المحسن جيدا. لهذا السبب يوصى بشدة باستخدامها 
في علم الأحياء الحاسوبي Computational Biology‏ والمعلوماتية الحيوية Bioinformatics‏ 
لمعالجة سلسلة عالية الأداء وخوارزميات التعلم الآلي. لا يزال العديد من علماء البيانات يستخدمون 
كائنات القائمة List‏ / المجموعات Sets‏ / القاموس Dictionary‏ لمعالجة السلاسل النصية strings‏ 
-Python manipulation‏ يشتكي البتعض منهم من ol‏ لغة £l Python‏ جد عندما يكتبون أكواد 
برمجة رديئةفي عملهم اليومي. أوصي sla‏ أصدقائي علماء او مهندسي البيانات بأخذ دورات متقدمةفي 
برمجة Python‏ قبل كتابة سطر واحد من كود Python‏ عندما تسنح لك الفرصةء أود أن تقرأ ورقة 
المدونة التالية للمتعة: "إعادة هيكلة كود بايثون لمشاريع التعلم الآلي. Python "Spaghetti Code"‏ 
IEverywhere‏ " 


يوجد أدناه كود دالة PYDNA‏ لتحويل السلسلة النصية لتسلسل DNA‏ إلى مصفوفة NumPy‏ أحادية 


البعد. 
620 6531 
def dna sequence np array(dna sequence string):‏ 
dna sequence array - None‏ 
Ery:‏ 
dna sequence string - dna sequence string.lower()‏ 
rege cege = re eonmpiislte meia‏ 
serine) == Nane) s‏ 22ت Cna‏ رات دمت 5 L (reges GEGE,‏ 
dna sequence array = np.array(list(dna sequence string))‏ 
else:‏ 
dna sequence array - None‏ 
exocepr:‏ 
print(PyDNA.get exception info ())‏ 
if PyDNA. app is log: PyDNA.write log file("error",‏ 
PyDNA.get exception info())‏ 
return dna sequence array‏ 
مثال: 


dna sequence string - 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT" 
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dna np array > PyDNA.dna sequence np array(dna sequence string) 
print (DNA sequence string:\n{}7. format (dna sequence string)) 
print("DNA NumPy array:Nní)".format(dna np array)) 


النتائج: 


DNA sequence string: 
ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT 

DNA NumPy array: 

[^at Wis 557 We 55 E U gl Ue U gil Don IGN Jj 557 DN Ure iq M VEN 
Use Ue Ug aes A cens Use Ll Uy ' 

Ug Usage Usu Ug: i Ug Je a Ute Dons Ute M Dons D Ue ' 
Ug u Ug Ug u Dp 


0. البحث عن أنماط تسلسل الحمض النووي 

يعد البحث عن أنماط تسلسل الحمض النووي DNA Sequence Patterns‏ مهمة قياسيةفي 
المعلوماتية الحيوية اليوم بمافي ذلك مجالات البروتين protein domains‏ وأشكال ربط عامل نسخ 
الحمض النووي DNA transcription factor binding motifs‏ ومواقع قطع إنزيم التقييد 
«restriction enzyme cut sites‏ ومواقع تمهيدي PCR‏ المتدهورة degenerate PCR‏ 
«primer sites‏ وتشغيل أحاديات النيوكليوتيدات runs of mononucleotides‏ وغيرها الكثير. 
تحتوي مكتبة PYDNA‏ على طريقة dna sequence pattern)‏ بسيطة للعثور على أنماطفي 
الما ال مل EROR‏ 2 1 


@staticmethod 

def dna sequence pattern(dna sequence string, dna sequence pattern): 
seartch'result = Fals 

Ex 
search pattern = re.search(dna sequence pattern.lower(), 
dna sequence string.lower (J) 

if search pattern: search result - Tru 

except: 

print(PyDNA.get exception info ()) 

E PYDNA GPE SI logs EVDA تعن‎ Od Eile eon 
PyDNA.get exception info()) 

FOEUEN 522611 FES E 


دعونا نلقي نظرة على بعض الأمثلة. 
مثال 1. 


dna sequence string - 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT ^ 
dna sequence pattern = "AATTTT" 

result > PyDNA.dna sequence pattern(dna sequence string, 
dna sequence pattern) 
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print (result) 
True 


مثال 2: 


dma Seque5 cem Ss ge 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT" 
dna sequence pattern < "AATTTTAA" 

result > PyDNA.dna sequence pattern(dna sequence string, 
dna sequence pattern) 

print (result) 

Hase 


1 . ترجمة السلسلة النصية لتسلسل الحمض النووي إلى بروتين 
لترجمة translate‏ تسلسل الحمض النووي إلى بروتينات» يتم استخدام مخطط الشفرة الوراثية 
للحمض النووي .DNA Genetic Code Chart‏ 


idèa 
dna sequence string > "ATGGAAGTATTTAAAGCGCCACCTATTGGGATATAAG" 
protein translation - 
PyDNA.dna protein translation(dna sequence string) 
print (DNA sequence string:\n{}7. format (dna sequence string)) 
print("Protein translation: Nn(]".format(protein translation)) 
النتائح:‎ 
c 
DNA sequence string: 
ATGGAAGTATTTAAAGCGCCACCTATTGGGATATAAG 
Protein translation: 
MEVFKAPPIGI 
نسخ السلسلة النصية لتسلسل الحمض النووى إلى السلسلة النصية‎ .12 
لتسلسل الحمض النووي الريبي‎ 


تقوم الدالة الموجودة أدناه بنسخ السلسلة النصية لتسلسل الحمض النووي DNA‏ إلى السلسلة النصية 
string‏ لتسلسل الحمض النووي الريبي RNA‏ 


QE 


dna sequence string > "ATGGAAGTATTTAAAGCGCCACCTATTGGGATATAAG" 

rna transcription - PyDNA.dna rna transcription(dna sequence string) 
print (DNA sequence string:\n{}7. format (dna sequence string)) 
print("RNA transcription: NMn(]".format(rna transcription)) 
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DNA sequence string: 
ATGGAAGTATTTAAAGCGCCACCTATTGGGATATAAG 
RNA transcription: 
AUGGAAGUAUUUAAAGCGCCACCUAUUGGGAUAUAAG 


jio B .13‏ السلسلة النصية لتسلسل الحمض النووي 

لاستخدام السلسلة النصية لتسلسل الحمض النوويفي مشاريع التعلم الآلي. يجب ترميزها أولاً. لا تعمل 
خوارزميات التعلم الآلي الرياضية مع البيانات النصية الفثوية text categorical data‏ اعتمادًا على 
خوارزمية التعلم الآلي المحددةء هناك ثلاثة أنواع رئيسية من ترميز السلسلة النصية لتسلسل الحمض 
النووي: 


1. ترميز التسمية :Label Encoding‏ هذا ترميز التسمية(العادي/01011121) سوف يقوم بترميز 
كل نوكليوتيد أساسي كقيمة عددية مخصصة. بشكل cele‏ لتكون أكثر دقة مع خوارزميات التعلم الآلي. 
يتم استخدام الأرقام العشرية floating‏ (العشرية (decimal‏ قبل تطبيق هذا الترميز. يجب تحويل 
سلسلة تسلسل الحمض النووي إلى مصفوفة NumPy‏ أحادية البعد. هذا النوع من الترميز شائع جد 
في التعلم الخاضع للإشراف باستخدام مكتبة «تدء.[-50116.في المثال cool‏ سيتم ترميز السلسلة 
النصية للتسلسل S'ACGT"‏ ]0.50.25 0.75: 1.0]. 


مثال: 


dna sequence string - 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT" 
dna np array = PyDNA.dna sequence np array(dna sequence string) 
dna label encoder > PyDNA.dna label encoder (dna np array) 

print (DNA sequence string:\n{}7. format (dna sequence string)) 
print("DNA NumPy array:Nní]".format(dna np array)) 

print (Custom Label Encoding: Nn()".format(dna label encoder)) 


النتائج: 


DNA sequence string: 
ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT 

DNA NumPy array: 

[^w med EVA eA OA EA Vie Ie بعد‎ XML بوا‎ weit MEA وا بجا‎ Nu. EZ 
wA Mew. wey Mi بحا‎ Nep EM mp New. wem ب‎ S No ad لد‎ EA 
و یت با ا بوا ا د‎ E G4 o EL 
ب‎ tA 

Custom Label Encoding: 

[0525 Le 05225 i. 0525 X. 0,9 OS 0.5 OnT OS O.75 0.29 O.25 1. i; i5 
1, 045 0.75 i. 0.25 0-75 15, ls 0429 0.75 0575 WS ls 0.75 0.25 15 1s 
1, d, 0,289 f. io 0.75 0.75 0.5 0.75 OQ.» 0.75 U.25 05.29 0.29 (0,259 l. ls 
Ji. 3b و‎ 35 i] 


gi 
git 
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2. ترميز واحد ساخن Dle :One-hot Encoding‏ ما يستخدم هذا الترميزفي الشبكات العصبية 
الاصطناعية ġ.Artificial Neural Networks (ANN)‏ كثير من coUe MI‏ يُطلق على ANN‏ اسم 
التعلم العميق -Deep Learning‏ التعلم العميق (المعروف أيضًا باسم التعلم المنظم العميق Deep‏ 
(Structured Learning‏ هو جزء من مجموعة أوسع من أساليب تعلم الآلة القائمة على ANN‏ مع 
التعلم التمثيلي .representation learning‏ وهو يتضمن البنى الرئيسية التالية: الشبكات العصبية 
العميقة Deep Neural Networks (DNN)‏ شبكات الاعتقاد العميق Deep Belief‏ 
Networks (OBN)‏ الشبكات العصبية المتكررة Recurrent Neural Networks (RNN)‏ 
والشبكات imal‏ التلافيفية .Convolutional Neural Networks (CNN)‏ يمكن لمكتبتى 


scikit-Learn‏ و Keras‏ توفير تطبيق الترميز هذا. بالنسبة للقاعدة القياسية للنيوكليوتيدات. فإن سلسلة 
التسلسل "ACGT"‏ ستكون مشفرة على tel‏ ]]0.0.0.1.[ ]0.0.1.0.[ ]0.1.0.0.[ ]0.0. 
1.0.[[ باستخدام مصفوفة cg t'] NumPy‏ 2[ 


مثال: 


EE ME 


E 


No Met xg ian Yen 
au Aav Ngy 


OO ان تك تك‎ OOGO (e»t o 
fa Xe» je اشم‎ (ex xe» اک‎ qe qe 


dna sequence string - 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT" 


dna np array > PyDNA.dna sequence np array(dna sequence string) 


dna one hot — PyDNA.dna onehot encoder (dna np array) 

print (DNA sequence string:\n{}7. format (dna sequence string)) 
print("DNA NumPy array:Nníj".format(dna np array)) 

print("DNA One-Hot Encoding with Scikit-Learn 

framework: Nn()".format(dna one hot)) 


DNA sequence string: 
ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT 

DNA NumPy array: 

E Cue NEN Mg OV NR بعد‎ etae بعد‎ a doe NAT oL بحا احا‎ ode 
MVC c E vc UMEN CLE 
ded VAL ete Lond NIS بعالا بنط‎ e e 
E E Eg ME 

Encoding with Scikit-Learn framework: 

IA, (05 O O5] O €. Oz Js] AS Co. O O.] O. Os O 15] 
0. 


0. 


Ygl 
X 


= 
= 
ك 


OGOR ےا اھ‎ O اھا أن‎ dp em 
(em) 

HPO GOG نر انم‎ O (2 O O © 

O (em) نيا‎ (em) fem) iem) Xe») (em) يق‎ (eor n 


DOO OGO GO Ley ات‎ em) O رک‎ 


O (em) do (em) res) ies] re» (em) ex) ےا‎ 
O (em) GOGG res) قي ےا‎ rey لے ا‎ emm 
BH O fem (em) des (em res) HOG 


O (e) (ey (em) re») (e) Te») ني يق‎ 2 
© (emp بح‎ O OPAH em rem) emm 


OA (eem (ey rem) (ey اق‎ (em) Jp 
(em) 
O O اي ني اق‎ OO (es) قي ني‎ 


[ey po ev rey rey HOS © re) 
(e») 

(€ کی‎ dex» (pA dp» €» (o €» «€» 

(ex) O OG O dps‏ نه كت (px‏ هك 
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يمكن تقديم نفس النتائج باستخدام مكتبة -Keras‏ 


dna sequence string - 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT" 
dna np array > PyDNA.dna sequence np array(dna sequence string) 
dna one hot — PyDNA.dna onehot encoder keras(dna np array) 


print (DNA sequence string:\n{}7. format (dna sequence string)) 
print("DNA NumPy array:Nní]".format(dna np array)) 

print("DNA One-Hot Encoding with Scikit-Learn 
framework: \n{}*. format (dna one hot)) 


3. عد (3:[K-mer Counting]K-mer‏ المعلوماتية الحيوية « k-mers‏ هي تكرارات الطول 
الموجودةفي التسلسل البيولوجي .biological sequence‏ عادة. يشير المصطلح K-mer‏ إلى كل 
التسلسل التالي من الطول ek‏ بحيث يحتوي تسلسل AGAT‏ على أربعة مونومرات A ) monomers‏ 
(T-A «G <‏ « ثلاثة AGA) mers 3 ots. (AG, GA, AT) -mers2‏ و (GAT‏ وواحد 


(AGAT) mer-4‏ - من تعريف -k-mer‏ بشكل عام c‏ يسمح تحليل تسلسل إلى قطع ذات حجم 
ثابت k-mers‏ بمعالجة السلسلة النصية بسرعة وسهولة. يتم تطبيق هذا بحكمةفي طريقة حقيبة 
الكلمات bag of words‏ لمعالجة اللغة الطبيعية Natural Language Processing (NLP)‏ 
لخوارزميات التعلم الآلي. سيتم تغطية هذه الطريقةفي الموضوع التالي. 


dna sequence string - 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTT" 

k mer list, k mer numpy array > PyDNA.k mer words(dna sequence string, 
k mer length-6) 

print (DNA sequence string:\n{}7. format (dna sequence string)) 
print("K-mer st: MI Aroma Ek mer list)) 

print("K-mer array: Mi Format (E mer numpy array)) 


النتائج: 


DNA sequence string: 
ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTT 

K-mer list: 

[EEE ; “tecate و‎ arete ى‎ "Eeueeo/,: Vues, "ec. CERE y 
7909006090277 CISTI, COOSA, 06 n 0 ^ ع تت‎ GCE, 
7600 ". ع ع‎ | LEGIT, "Een. "eir; Voie "ts n 
EEE, Wen. Bee "Bee. "esperes", ege "Stc 
Mete suEIE" ^ ات‎ p الع ات‎ 7; COC, لالتعا عا عع‎ y SECC 7; CCA, 
”رورم اا‎ P. Meunier pore "eese. exert eese" y CICA, 
'gcgaaa', 'cgaaaa', "gaaaat', "aaaatt', "aaattt'] 

K-mer array: 

|] enssureuE" ACEC, EAE EAE "euer "ees" "ces 
ECOL EOE OEE لهم تتم اال‎ EEG 
vorc "Eine EES COSTS  Welsnueie. "ense 2 
aGEEAG "ence "else. "eer ever "eme Yel" 
EEE “gegawe” EEE acerca teeter "Eid "Ete 
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Weert EESTI, tt cro eg وعم كاعر‎ egege" 0666217“ 
'qcgaaa' "'cgaaaa' "gaaaat' "aaaatt' "aaattt'] 


14. حقيبة الكلمات للسلسلة النصية لتسلسل الحمض النووي 

تسلسل الحمض النووي هو عبارة عن بيانات نصية بسيطة غير منظمة -unstructured text data‏ 
لهذا السبب» يجب أن تكون المعالجة اللغوية الطبيعية NLP‏ أداة ممتازة لاستخدامها من أجل ذلك. 
الفكرة الرئيسية لاستخدام المعالجة اللغوية الطبيعية هي السماح لأجهزة الكمبيوتر بفهم النص غير 
المنظم واسترداد أجزاء ذات معنى من المعلومات لاتخاذ قرارات العمل. المعالجة اللغوية الطبيعية هو 
جزء من نظام الذكاء الاصطناعي. 


حقيبة الكلمات Bag of words‏ هي إحدى الطرق المستخدمةفي المعالجة اللغوية الطبيعية. وتتمثل 
مهمتها الرئيسيةني تحويل بيانات النص الخام إلى كلمات وإحصاء تكرارهاني النص. ترتيب هذه 
الكلمائفي النص غير مناسب. بالسبة للمستند النصيء يتم إنشاء مصفوفة من ade‏ الرموز المميزة 
token‏ بشكل cele‏ تمثل هذه المصفوفة متجه الميزات features vector‏ النهائية التي سيتم تطبيقها 
في خوارزميات التعلم الآلي.في مثالنا دناه فإن قائمة k-mers‏ لتكرارات الحمض النووي اللاحقة هي 
معلمة الإدخال لتوليد حقيبة الكلمات لها. 


مثال: 


k mer liet > 38858157 52556“ GLACE ACCC y CCE, 
ع “و2500‎ WCCO y MECC p eee. ENES | 

word ngram > 1l 

k mer token count > PyDNA.bag of word list(k mer list, word ngram) 
print("K-mer list: Nn()".format(k mer list)) 

print("Word ngram:Nníj".format (word ngram)) 

print("K-mer matrix token 
counts:Nn()".format(k mer token count.toarray())) 


النتائج: 


K-mer list: 

EEE p “catete y aretes" p Cace y ees, "GS, eG" p 
'cecggga', "'cgggaa', "gggaat'] 

Word ngram: 


K-mer matrix of token counts: 
i O OC OC O 9 O O 
0 


O يقي‎ emp 3:32 em 
OG OOGO تن ےا ات‎ 
(em) GOO HOGG 
(ey ےا‎ OOG O O 
AHO dem qe» e» fem em 
OG OGOGO ات‎ GG © 
O G O OOGG 
نه ت‎ O ا‎ O = 
© يق يقي يي‎ [tem (emn 
OO I ey GG © 


1 تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


5. تسلسل الحمض النووى الريبي RNA‏ 

استنادًا إلى المعهد الوطني لبحوث الجينوم البشري» Ribonucleic Acid RNA) ob‏ هو حمض 
نووي مشابهفي هيكله للحمض النووي DNA‏ ولكنه يختلف بطرق خفية. تستخدم الخلية RNA‏ 
عدد من المهام المختلفة« أحدها يسمى RNA‏ المرسال messenger RNA‏ أو lias .mRNA‏ 
هو جزيء معلومات الحمض النووي الذي ينقل المعلومات من الجينوم إلى بروتينات عن طريق الترجمة 
JSS translation‏ آخر من أشكال الحمض النووي الريبي هو حمض نووي ريبوزي ناقل ERNA‏ 
أو transfer RNA‏ وهذه جزيئات الحمض النووي الريبي غير المشفرة للبروتين والتي تحمل bes‏ 
الأحماض الأمينية amino acids‏ إلى موقع الترجمة الذي يسمح بتجميعهاني سلاسل من البروتينات 
في عملية الترجمة. 


يقوم تسلسل الحمض النووي الريبي بتحليل النسخة الخلوية المتغيرة باستمرار باستخدام تقنيات 
تسلسل الجيل التالي (NGS). Next-Generation Sequencing (NGS)‏ هي عملية ia‏ 
واسعة النطاق تحقق التسلسل السريع لأزواج القواعدني عينة DNA‏ أو RNA‏ مكن NGS‏ الباحثين 
تطبيقات INGS‏ مجموعة متنوعة من التقنيات الحديثة مثل تسلسل الجينوم الفيروسي الكامل عالي 
الإنتاجية high-throughput complete viral genome sequencing‏ واكتشاف تقلب جينوم 


.evolution in a host والتطورفي مضيف‎ virus genome variability detection الفيروس‎ 


دعونا نلقي نظرة على بعض دوال PYDNA‏ لدعم معالجة السلاسل النصية لتسلسل الحمض النووي 
الريبي RNA‏ 


6. التحقق من صحة السلسلة النصية لتسلسل الحمض النووي الريبي 
يجب أن تحتوي سلسلة تسلسل الحمض النووي الريبي على أربعة نيوكليوتيدات قاعدية [" dC" A"‏ 
"6" ]""]. تسمح هذه الدالة بالتحقق من تسلسل الحمض النووي الريبي RNA‏ باستخدام أي 


نيوكليوتيدات أساسية مخصصة .custom base nucleotides‏ 
مثال: 


rna sequence string - 
"AUGGCCAUGGCGCCCAGAACUGAGAUCAAUAGUACCCGUAUUAACGGGUGA" 

is rna result > PyDNA.is rna(rna sequence string, 

pisci eguence IDA CO AC MM 

print (RNA sequence string:\n{}7. format (rna sequence string) ) 
print("Is NAS NANE. EOE (LS rna result)) 


النتائج: 


النتائج: 
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RNA sequence string: 
AUGGCCAUGGCGCCCAGAACUGAGAUCAAUAGUACCCGUAUUAACGGGUGA 
Is RNA: 

True 


rna sequence string > 
"AUGGCCTUGGCGCCCAGAACUGAGAUCTAUAGUACCCGUAUUAACTGGUGA" 

abs Tia result = EVDA S ENA (Genel هوت‎ SEEING 

bese sSectencs= [NMA CE E, UE 

print (RNA sequence string:\n{}7. format (rna sequence string) ( 
print("Is RNA:WMn()".format(is rna result)) 


RNA sequence string: 
AUGGCCTUGGCGCCCAGAACUGAGAUCTAUAGUACCCGUAUUAACTGGUGA 
Is RNA: 

False 


17. عد النيوكليوتيدات الأساسية في السلسلة النصية لتسلسل الحمض النووي 


una 

تتيح الدالة أدناه عد نيوكليوتيدات تسلسل الحمض النووي الريبي مع أي قاعدة مخصصة محددة. يتم 
إرجاع طول تسلسل UAI RNA‏ 

مثال: 


النتائج: 


rna sequence string > 
"AUGGCCAUGGCGCCCAGAACUGAGAUCAAUAGUACCCGUAUUAACGGGUGA" 

base sequence count, rna sequence length —- 
PyDNA.rna count nucleotide (rna sequence string, 

base دهم ومس ههه‎ [NA Vers OF, wg]. AS iesmtonelaes Tbe) 

print (RNA sequence string:\n{}7. format (rna sequence string)) 
print (RNA nucleotides count: NMn(j".format(base sequence count) ( 
print (RNA length:\n{}7“. format (rna sequence length) ) 


RNA sequence string: 
AUGGCCAUGGCGCCCAGAACUGAGAUCAAUAGUACCCGUAUUAACGGGUGA 
RNA nucleotides count: 

AEs dO. CS T. Wes a Mo e DON 

RNA le 


1 تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


18. ترجمة السلسلة النصية لتسلسل الحمض النووى الريبي إلى بروتين 
لترجمة تسلسز الحمض النووي الريبي إلى بروتینات› يتم استخدام مخطط الشفرة Code Chart‏ 


RNAI iad 
iJe 

rna sequence string - 

"AUGGCCAUGGCGCCCAGAACUGAGAUCAAUAGUACCCGUAUUAACGGGUGA" 

protein translation = PyDNA. 

rna protein translation(rna sequence string) 

print ("RNA Sequence string:\n{}7. format (rna sequence string)) 


print("Protein translation: Nn(]".format(protein translation)) 
النتائح:‎ 
c 


RNA sequence string: 
AUGGCCAUGGCGCCCAGAACUGAGAUCAAUAGUACCCGUAUUAACGGGUGA 
Protein translation: 

MAMAPRTEINSTRING 


19. التراصف التسلسلي لحمض 599-Ul‏ والحمض النووي cu Jl‏ والبروتين 

تعد التراصف التسلسلى Sequence alignment‏ طريقة لترتيب تسلسل الحمض النووي أو الحمض 
النووي الريبي أو البروتين لتحديد مناطق التشابه التي قد تكون نتيجة للعلاقات الوظيفية أو الهيكلية أو 
التطورية بين التسلسلات. يتم تمثيل التسلسلات المتراصفة LUJ Aligned sequences‏ الأحماض 
الأمينية أو النيوكليوتيدات عادة كصفوف داخل مصفوفة. يتم إدخال الفجوات بين البقايا بحيث يتم 
محاذاة الأحرف المتطابقة أو المتشابهةفي أعمدة متتالية. يُستخدم التراصف التسلسلي Ca‏ للتسلسلات 
غير البيولوجيةء مثل حساب تكلفة المسافة بين السلاسلفي لغة طبيعية أوفي البيانات المالية. 


تعد البرمجة الديناميكية Dynamic Programming (DP)‏ إحدى التقنيات الأساسية المستخدمة 
اليوم للتراصف التسلسلي بشكل أسرع. DP‏ هي طريقة تحسين رياضية وطريقة برمجة كمبيوتر. يشير 
فى كله السياقيق إلى قسيط کا ine‏ عن طريق تقسيمها إلى io p (JS ta‏ أبسظ بش اة 
Y aa‏ بنك aas ass‏ ولاف القرار بهذه الطريقةء غالبا ما تتفكك القرارات التي تمتد على 
عدة نقاط زمنية بشكل متكرر. i elus‏ علوم الكمبيوتر إذاكان من الممكن حل المشكلة على النحو 
الأمثل عن طريق تقسيمها إلى مشاكل فرعية ثم إيجاد الحلول المثلى للمشكلات الفرعية بشكل متكررء 
فيقال إن لديها بنية أساسية مثالية. 


يمكن أن يكون للتراصف التسلسلي التطبيقات الرئيسية التالية: بالنظر إلى تسلسل جديدء توقع وظيفتها 
بناءً على التشابه مع تسلسل RT‏ والعثور على مناطق جزيئية مهمة. وتحديد القيود التطوريةفي العملء 
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والعثور على الطفراتني مجموعة أو عائلة من الجينات» ويعطينا بيولوجيا الشبكة معلومات وظيفية عن 
الجينات / البروتينات» تحليل روابط الطفرات الجينات غير المعروفة بالأمراضء إلخ. 


إذا قارنا تسلسلين» فإنه يعرف باسم التراصف التسلسلي الزوجي .pairwise sequence alignment‏ 
إذا قارنا أكثر من تسلسلين» فإنه يعرف باسم التراصف التسلسلي المتعدد multiple sequence‏ 
alignment‏ بشكل عام» هناك نوعان من التراصف التسلسلي: التراصف العام والمحلي global and‏ 
local alignments‏ يعد التراصف العامء التي تحاول محاذاة كل بقايافي كل تسلسل» مفيدة للغاية 
عندما تكون التسلسلاتفي مجموعة الاستعلام متشابهة ومتساوية الحجم lia) GE‏ لا يعني أن 
التراصف العام لا يمكن أن تبدأ و / أو تنتهي في فجوات.) تقنية التراصف العام بشكل عام هي خوارزمية 
Needleman- Wunsch‏ . والتي تعتمد على البرمجة الديناميكية. يعد التراصف المحلي أكثر فائدة 
للتسلسلات غير المتشابهة التي يشتبهني احتوائها على مناطق متشابهة أو أشكال تسلسلية مماثلة ضمن 
سياق التسلسل الأكبر. تعد خوارزمية Smith- Waterman‏ طريقة تراصف محلية عامة تستند إلى 
نفس مخطط البرمجة الديناميكي ولكن مع خيارات إضافية للبدء والانتهاءني أي مكان. 


يوجد أدناه كود لمقارنة تسلسلين باستخدام الخوارزميات العالمية والمحلية مع مكتبة PYDNA‏ 


Sequemcemee- للم‎ 

Sequenccm = e 

print("Needleman-Wunsch Global Algorithm") 
PyDNA..needleman wunsch global(sequence 1, sequence 2) 
print("Smith-Waterman Local Algorithm") 

PyDNA.smith waterman local(sequence 1, sequence 2) 


النتائج: 


Needleman-Wunsch Global Algorithm 
Score: 15 

ACGGGT 

AC G 

AC — G-Smith-Waterman Local Algorithm 
score: 30 

ACG 


20. نظرة عامة على مكتبة Biopython‏ 

مكتبة Python‏ الأكثر شيوعًا المستخدمةني علم الأحياء الحاسوبي والمعلوماتية الحيوية هي 
-Biopython‏ مشروع 02 عبارة عن مجموعة مفتوحة المصدر من أدوات Python‏ غير 
التجارية للبيولوجيا الحاسوبية والمعلوماتية الحيويةء التي أنشأتها جمعية دولية للمطورين. يحتوي على 
فئات لتمثيل التسلسلات البيولوجية والتعليقات TET‏ المتسلسلة؛ وهو قادر على القراءة والكتابة 
إلى مجموعة متنوعة من تنسيقات الملفات. كما يسمح بالوسائل البرمجية للوصول إلى قواعد البيانات 


1 تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


عبر الإنترنت للمعلومات البيولوجيةء مثل تلك الموجودةفي NCBI‏ تعمل الوحدات المنفصلة على 
توسيع قدرات Biopython‏ للتراصف العام «sequence alignment‏ وبني البروتين protein‏ 
«le; «structure‏ الوراثة السكانية «population genetics‏ وعلم الوراثة «phylogenetics‏ 
وتسلسلات الاشكال sequence motifs‏ والتعلم Biopython . Y‏ هو واحد من عدد من مشاريع 
Bio*‏ المصممة لتقليل تكرار الكود code duplication‏ علم الأحياء الحسابي. 


للمقارنة» دعنا نستخدم هذه المكتبة للتراصف التسلسلي الموضحة أعلاه. كما ترون من البرنامج eol‏ 
تم استيراد مكتبة -Bio‏ 


from Bio import pairwise2 
from Bio.pairwise2 import format alignmentsequence 1 - "ACGGGT" 
Sequenccgs a AG (E 
print("Needleman-Wunsch Global Algorithm") 
alignments - pairwise2.align.globalxx(sequence 1, sequence 2) 
for item in alignments: 

print(format alignment (*item)) 
print("Smith-Waterman Local Algorithm") 
alignments - pairwise2.align.localxx(sequence 1, sequence 2) 
for item in alignments: 

print(format alignment (*item)) 


Needleman-Wunsch Global Algorithm 

ACGGGT 

I | 

BC == 
Score-3 

ACGGGT 

E | 

AC-G-- 
Score-3 

ACGGGT 

|I 

ACG--- 
Score Smith Waterman Local Algorithm 

| ACGGG 
NI 

L m6 
Score-3 

| ACGG 
ll d 

| AC-G 
Score-3 

| ACG 
RI 
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1 ACG 
Score-3 


كلا المكتبتين تنتج نفس النتائج. بالنسبة لحالتناء فإن أفضل التراصف العالمي والمحلي هي - AC‏ 
.ACG 5; -G‏ 


21. مكتبة 29101148 المخصصة 

أثناء البحثفي تطبيقات خوارزميات التعلم الآلي لبيانات الجينوم. وجدت العديد من إجراءات البرمجة 
القياسية والعامة ومعالجة البيانات المتسلسلة غير متوفرة. لا توفر مكتبة Biopython‏ نماذج ANN‏ 
Boosting Gradient;‏ الحديثة المطلوبة مثل الشبكات العصبية التلافيفية (CNN)‏ والشبكات 
العصبية المتكررة (RNN)‏ واكس جي بوست .CXGBoost)‏ وما إلى ذلك. ولهذا السبب» قررت 
إنشاء مكتبة Python‏ بسيطة حتى أتمكن من إعادة استخدامهني عملي اليومي للمعلومات الحيويةفي 
التعلم الآلي. بعد شهرين من العملء أصبحت هذه المكتبة بسيطة وجيدة وكبيرة. قد تتوفر حزمة الإعداد 
الخاصة بهفي المستقبل. فيما يلي أساسيات التصميم الرئيسية. 


.1 


u دن حب‎ M 


سهل الاستخدام عن طريق نسخ ولصق ملفات pydna.py‏ و dipydna.py‏ أي مشروع 
.Python‏ 

أساليب تعلم الآلة العامة والإجراءات المنطقية لتدفق عمل المشروع بأكمله. 

معالجة الأخطاء وملف التكوين وتنفيذ رسائل السجل. 

صيانة بسيطة وترقيات مستقبلية. 

وحدة اختبارات تنفيذ المشروع. 


فيما يلي مثال على كود لملف الواجهة العامة لمكتبة PYDNA‏ 


from zope.interface import Interface 

class IPyDNA(Interface): 

def dna sequence np array(dna sequence string): 

"nmn 

convert a dna sequence string to numpy one-dimensional array 
dna sequence string: dna sequence string 

return: numpy one-dimensional array 


nw 


pass 


22. تصنيف تسلسل الحمض النووي باستخدام خوارزميات التعلم الآلي 
هناك طلب كبير لتطبيق التعلم الآلي على تحليلات مجموعة بيانات الجينوم اليوم. لا تزال العديد من 
الأسئلة حول هذا الموضوع غير واضحة على الإطلاق. دعني أذكر بعضها: 


1) تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


ما هو مشفر تسلسل الحمض النووي DINA sequence encoder‏ الذي يجب استخدامه 
et.‏ على نموذج التعلم الآلي المحدد؟ 

ما هي نماذج التعلم الآلي التي يجب استخدامها لمجموعات بيانات الجينوم العام وكيفية 
تفسيرها؟ 

كيفية تحسين المعلمات الفائقة hyperparameters‏ لنموذج التعلم الآلي؟ 

كيفية تطبيق معالجة اللغة الطبيعية NLP‏ على تسلسل الحمض النووي كمجموعة بيانات 
نصية غير مهيكلة *unstructured text dataset‏ 

كيفية التعامل مع مجموعات بيانات التعبير الجيني عالية الأبعاد وغير المسماة high‏ 
dimensional and unlabeled gene expression datasets‏ * 

ما هي الطريقة التي يجب استخدامها للتعامل مع مجموعات البيانات الجينومية genomic‏ 
65 ذات الفئات غير المتوازنة *imbalanced classes‏ 

ما المقاييس metrics‏ التي يجب استخدامها للتحقق من صحة نموذج التعلم الآلي باستخدام 
مجموعات بيانات الجينوم؟ 

كيف يتم الكشف عن نموذج التعلم الالي واستهلاكه باستخدام استدعاء واجهة برمجة 
تطبيقات API‏ خدمات الويب؟ 

كيفية تصميم وبناء جانب العميل و / أو تطبيق سطح المكتب لاستخدام نماذج التعلم الآلي 
هذهفي البحث الحقيقي و / أو بيئات الأعمال الإنتاجية؟ 


يعد اختيار نموذج التعلم الآلي وتحسين المعلمات الفائقة جزءًا من تدفق مشروع التعلم الآلي من 
الخطوات الموضحة أدناه: 


.. Project description and specifications وصف المشروع والمواصفات‎ 

.Data loading تحميل البيانات‎ 

.Data preprocessing معالجة البيانات‎ 

.Data exploration and visualization استكشاف البيانات والتصور‎ 

.Features engineering and reduction هندسة الميزات واختزالها‎ 

.Features and labels encoding ترميز الميزات والتسميات‎ 

.Features and labels data splitting تقسيم بيانات الميزات والتسميات‎ 

-Features and labels scaling تحجيم الميزات والتسميات‎ 

Model selection and hyperparameters اختيار النموذج وتحسين المعلمات الفائقة‎ 
optimization 


التحقق من الصحة المتقاطع للنموذج Model cross validation‏ 
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-Model prediction التنبؤ بالنموذج‎ © 

-Model performance metrics analysis تحليل مقاييس أداء النموذج‎ e 

e‏ نشرإنتاج النموذج باستخدام تكامل تطبيقات تكنولوجيا المعلومات لواجهة برمجة تطبيقات 
الويب Model production deployment using Web APIs IT application.‏ 
integration‏ 

Model جدول إعادة التدريب النموذجي وإعادة نشر ذكاء الأعمال واتخاذ القرارات‎ e 
retraining schedule and redeployment business intelligence and 


decisions making 


يعد تحديد هذا النموذج لمجموعة بيانات جينوم معينة قرارًا مهما لعلماء المعلومات الحيوية وعلماء 
الأحياء والأطباء.في العديد من حالات الاستخدام يتم تحديد هذا التحديدء على سبيل المثال؛ Fly‏ على 
اتساق طول تسلسل الحمض النووي عبر مجموعة البيانات. يمكن استخدام خوارزميات التعلم الآلي 
التقليدية (الانحدار الخطي واللوجستي Linear and Logistics Regressions‏ وأشجار القرار 
«Decision Trees‏ وآلة المتجهات الداعمة Support Vector Machines‏ والغابات العشوائية 
Random Forest‏ وخوارزميات التعزيز .Boosting Algorithms‏ وشبكة بايزي Bayesian‏ 
Network‏ وما إلى ذلك) مع أي طول لتسلسل الحمض النووي. تتطلب خوارزميات ANN‏ الحديثة 
مثل RNN; CNN‏ طول تسلسل DNA‏ ثابتفي عمود مجموعة البيانات بأكمله. توفر مكتبة 
PYDNA‏ دالة بسيطة لتحديد ما إذا كانت السلسلة النصية لتسلسل الحمض النووي المحددة تحتوي 
على طول موحد أم لا. 


dna is same length > PyDNA.dna sequence is equal length (X) 
Tf dna is sane lengi == False: 
print ("DNA sequence length validation") 


دعونا نلقي نظرة على حالة الاستخدام الأولى. لنفترض Ul‏ بحاجة إلى بناء نموذج تصنيف يمكنه التنبؤ 
بعائلة جينية Lo gene family‏ على مجموعة بيانات تسلسل الحمض النووي البشري. يتم تصنيف 
الجينات إلى عائلات بناءً على النوكليوتيدات المشتركة أو تسلسل البروتين. عائلة الجينات هي مجموعة 
من عدة جينات متشابهة» تتكون من ازدواج جين أصلي واحد» وبشكل عام مع وظائف كيميائية حيوية 
مماثلة. ستستخدم هذه الحالة ملف "human data.txt‏ يمكن تنزيله من موقع GitHub‏ على 
الويب. 

ستوفر UJ‏ طريقة المعلومات الخاصة ب Pandas DataFrame‏ وصق كاماد لمجموعة البيانات. يحتوي 
على عمودين "تسلسل sequence‏ " و Class žo"‏ مع 0 صفاً. 


«class 'pandas.core.frame.DataFrame'- 
RangeIndex: 4380 entries, 0 to 4379 


1( تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


Data columns (total 2 columns): 
# Column Non-Null Count Dtype 

0 sequence 4380 non-null object 
1 class 4380 non-null int64 
dtypes: int64(1), object(1) 
memory usage: 68.6+ KB 

None 


CO CO B a 


Sequence class 

0 ATGCCCCAACTAAATACTACCGTATGGCCCACCATAATTACCCCCA... 
1 ATGAACGAAAATCTGTTCGCTTCATTCATTGCCCCCACAATCCTAG... 
2 ATGTGTGGCATTTGGGCGCTGTTTGGCAGTGATGATTGCCTTTCTG... 
3 ATGTGTGGCATTTGGGCGCTGTTTGGCAGTGATGATTGCCTTTCTG. . . 
[4380 rows x 2 columns] 


كما qui‏ تخدرى سجموعة البيانات eda‏ على «obla tes pue‏ عموة "الملسل" هو اساسا النصية 
لتسلسل الحمض النووي وعمود "الفئة" الذي يحتوي على سبع تسميات عائلة جينية محتملة موضحة 


فى الجدول 1 أدناه. 


Gene Family Count Class Label 
G protein coupled receptors 531 0 
Tyrosine kinase 534 1 
Tyrosine phosphatase 349 2 
Synthetase 672 3 
Synthase 711 - 
lon channel 240 5 
Transcription factor 1343 6 


الجدول 1. اسم عائلة الجينات وتعدادها. 


يوضح الشكل 1 المخطط الشريطي لتسميات الفئة class labels‏ لدينا حالة فتات غير متوازنة 
imbalanced classes‏ مع مجموعة البيانات هذه. بشكل عام قبل تطبيق خوارزميات التعلم I‏ 
يجب أن تكون هذه الفئات عبارة عن diab)‏ العينات oversampling‏ أو نقصفي العينات 
Ce» .undersampling‏ نكتشف ما إذا كنا بحاجة إلى تطبيق أي من هذه التقنيات لنموذج التصنيف 


الخاص بنا. 
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Human Gene Family Classes 


1200 


1343 
711 
672 
600 
531 534 
400 349 
240 

0 

0 

1 2 3 4 5 6 


Count 


0 


Gene Family Class 


الشكل 1. المخطط الشريطي لتسميات الطبقة البشرية. 


فيما يلى أمثلة على تصنيفات y &A‏ 


y class 
0 4 
1 4 
2, 3 
9 3 

إليك حقيبة الكلمات النهائية للميزات X‏ وأمثلة أعمدة الفئة. 
X class‏ 
L‏ )52803 ;0( 
(O, 207969) T‏ 
1 )136621 ,0( 
1 )79202 ,0( 


دعونا نتحقق من الطول الموحد uniform length‏ لتسلسل الحمض النووي. 


X — PyDNA.select df column(df dna, "sequence") 

dna is same length = PyDNA.dna sequence is equal length (X) 
print(dna is same length) 

False 


والنتيجة هي False"‏ ". وبالتالي فإن طول تسلسل الحمض النووي ليس om ya‏ عبر العمود.ني هذه 
الحالة. سيتم استخدام خوارزميات التعلم الآلي التقليدية. 

استنادًا إلى مكتبة PYDNA‏ يتم عرض الكود الكامل لخوارزميات التعلم SY‏ أدناه. لقد علقت على 
كل سطر من التعليمات البرمجية لأي شخص لفهم كيفية عمل هذا البرنامج. 


1 تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


import sys 

import time 

import os 

os.system("cls")import numpy as np 

import pandas as pd 

MOSSE E Mae DESE 215 انون‎ AS le 

import seaborn as sns 

import xgboost as xgbfrom sklearn.feature extraction.text import 
CountVectorizer 

from sklearn.model selection import train test split 
i EOM Sklearn MeT ES ES MOOT CLASS EEA EI OM EOE, 
confusion matrix, accuracy score 


Teom Sklearn metrics mort TOC auc Sore, Drecigion seonBne 
recati core 21 

from sklearn.naive bayes import MultinomialNB 

from sklearn.neural network import MLPClassifier 

from sklearn.ensemble import RandomForestClassifier 

from sklearn.preprocessing import StandardScaler, MinMaxScaler, 
RobustScaler, MaxAbsScaler 

from pydna import PyDNAimport warnings 
warnings.filterwarnings('ignore')def 

get program running(start time): 


RA Erme omes ProOCSss Cime) 
bie ime > eae CMe — Start Cime 
result = tine. sti freiem e DESEE MS o, CEME GME Me (CLEE Eme) 


print("program runtime: ()".format(result))def main(): 

f text file path and name. this path to be defined in the 
project config file 

human data txt > r"folder pathMhuman data.txt" 


* data load 

df dna = PyDNA.pandas read data("TXT", human data txt, None)f 
select y label 

y= eNA select y lebel chian CaS) 


# generate a k-mer of words data frame column 
df dna > PyDNA.create dataframe column words (df dna, 
"sequence", "words") 


show y label imbalanced classes plot 
PyDNA.imbalanced classes plot(y, True, "class", "Gene Family 
Class", "Count", "Human Gene Family Classes") 


generate X feature bag of works 
X — PyDNA.bag of word series(df dna["words"], 4) 


data split in train, valid and test (8037/107/107) 

S trean, y Erein, X VALI, y valie, X "teu, y TeSt = 
EYDNA renin ve licencion test Soliti wp eere. TESE Satu e). 277. 
valis 5129-05 


O3 
(op 
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# create machine learning model and optimize it's 
hyperparameters 

ml model, ml model hyperparameter > 
PyDNA.create ml model("MultinomialNB", X train, y train) 

print(ml model hyperparameter) 


# get y predicted valid 
y predicted valid = PyDNA.ml model predict(ml model, X valid) 


* calculate valid classification metrics 
accuracy score value, precision value, recall value, 
fl score value, confusion matrix value, classification report value 
-OPyDNAGCalculauexclassaficatitongemetries ys ل‎ 
y predicted valid) 
print("valid accuracy 
score: WMn()Mn".format(accuracy score value)) 
print ("valid precision: Mn()Nn".format(precision value)) 
print("valid recall: Nn(]Nin".format (recall value)) 
print("valid f1 score:Nn()Nn".format(fl score value)) 
print("valid confusion 
matrix:Nn()An".format(confusion matrix value)) 
print("valid classification 
report: Nn()An".format(classification report value)) 


# get y predicted test 
y predicted test > PyDNA.ml model predict(ml model, X test) 


f Calcul ate EES Cla SSE EAE HON merries 

accuracy score value, precision value, recall value, 
fl score value, confusion matrix value, classification report value 
— PyDNA.calculate classification metrics(y test, y predicted test) 


print("test accuracy 
score: WMn()Mn".format(accuracy score value)) 

print("test precision: Nn()NAn".format(precision value)) 

print("test recall:WNn()Nn".format(recall value)) 

print("test fl score: Nn()]Mn".format(fl score value)) 

print("test confusion 
matrix:Nn()NAn".format(confusion matrix value)) 

print("test classification 
report:\n{}\n". format (classification report value))if _ name  -- 
7 meim “s 

start time = time. process time() 

main )( 


get program running(start time) 
النتائج ستة‎ „485 .Multinomial Naive Bayes فيما يلي نتائج البرنامج باستخدام نموذج مصنف‎ 
accuracy مقاييس محسوبة رئيسية مستخدمةفي التحقق من صحة نماذج التصنيف: درجة الدقة‎ 
confusion JYI مصفوفة‎ (f1 score) £1 درجة‎ recall الاسترجاع‎ «precision الدقة‎ «score 
تعد نسبة 797.7 من درجات دقة الاختبار نتيجة‎ . classification report وتقرير التصنيف‎ matrix 


1 تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


ممتازة لمجموعة البيانات الجينومية الخاصة بنا. بالنظر إلى قيم نقاط دقة التحقق والاختبارء يمكننا 
التأكد من أن مشكلة الضبط الزائد [overfitting‏ الضبط الناقص underfitting‏ للنموذج ليست هي 
حالتنا. لهذه الأسباب ليست هناك حاجة لتطبيق أي طرق فئات غير متوازنة لمجموعة البيانات الخاصة 


I 
validation accuracy score: 
98.858validation precision: 
O98 9 2wadstdacioenesecals 
98.858validation f1 score: 
98.86validation confusion matrix: 
LE S3 0 0 0 0 0 0 
0 52 0 0 0 il 0 
0 0 25 0 0 0 0 
0 0 0 66 i 0 0 
il 0 0 9 69 0 il 
0 0 0 0 0 24 0 
0 0 0 0 1 0 134]]validation classification report: 
precision recall fi1-score support0Ü (ORO 
1L 5 100) (01, 99) 53 
1 1.00 0.98 O SS) 55 
2 4L. 90) 1.00 1L 5010) 35 
3 1L e (0), ©, 9 omo 67 
4 0.97 01297 01297 ya 
5 0.96 1.00 01:98 24 
6 Oa 99] 0a 99 O- 99) JL 35 accuracy 
0,5 939) 438 
macro avg (9). 91 ().; 99 (0). 9 438 
weighted avg 07 026 026 438test accuracy 
Score: 
97.717test precision: 
97.8test recall: 
O7 s 7756515 El Scores 
98/725661 CONTOS MACE 
HE 30 0 0 0 3 0 0 
0 59 0 0 0 0 1 
0 0 95 0 0 0 0 
0 0 0 67 0 0 0 
0 1 0 0 70 0 0 
0 0 0 0 Q 23 1 
0 0 0 0 1 3 10] Jessi CLAS SEE 62 ا‎ erp otis. 
precision recall f1-score support0Ü 1 00 
0.94 0.97 55 
i (0), 98 (0). X8 0.98 54 
2 1-00 00 IOO 355 
3 JL. (0:0 JL 5 (0/6) dL 510), 67 
4 (PISIS 0), 99 012977 Fi 
5 0.88 0.96 0/292 24 
6 (0 98 0). 7) 0 5/98 134 accuracy 
0.96 438 


38 التعلم العميق واستخداماته فى المعلوماتية الحيوية‎ 
macro avg (ORO 0.98 (QEON 438 
weighted avg 0.98 0/98 0.98 438 


يوضح الجدول 2 نتائج تطبيق أنواع مختلفة من نماذج تصنيف التعلم الآلي. تم الحصول على أفضل 
النتائج باستخدام نماذج المصنف Multi-layer Perceptron; Multinomial Naive Bayes‏ 
مع أكثر من 7 من درجات دقة الاختبار. قدمت نماذج الانحدار اللوجستي Logistic Regression‏ 
والغابات العشوائية Random Forest‏ حوالي 92/ من درجات دقة الاختبار. عادة ما يوفر نموذج 
الغابات العشوائية نتائج جيدة. Glas‏ للعديد من مجموعات البيانات الممكنة. أوصي بالبدء بنموذج 
الغابات العشوائية لأي مشاريع تصنيف وانحدار تعلم آلي. لم تنجح نماذج تعزيز التدرج Gradient‏ 
(boosting models‏ مجموعة البيانات لدينا. ربماء بشكل cale‏ هذه النماذج ليست جيدة بما يكفي 
لتصنيف مجموعات بيانات الجينوم. سأقدم المزيد من المعلومات والنتائج الجديدة حول هذا 
الموضوعفي أوراق المدونة القادمة. 


Classification Model Validation Accuracy Score, 96 Test Accuracy Score, 96 
Logistic Regression 92.2 94.0 
LogisticRegression() 

Decision Tree 76.4 81.7 
DecisionTreeClassifier() 

Random Forest 92.2 92.4 
RandomForestClassifier() 

C-Support Vector Classification 89.4 90.8 
SVO() 

Multinomial Naive Bayes 98.8 97.7 
MultinomialNB() 

Gradient Boosting 81.9 83.7 
GradientBoostingClassifier() 

AdaBoost 42.6 43.8 
AdaBoostClassifier() 

K-Nearest Neighbors 78.3 81.7 
KNeighborsClassifier() 

Multi-layer Perceptron 98.8 97.4 
MLPClassifier() 

Extreme Gradient Boosting 76.0 78.5 
XGBClassifier() 


الجدول 2. نتائج نماذج مصنفات التعلم SI‏ مع مجموعة بيانات عائلة الجينات. 


1 تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


23. تطبيق الشبكات العصبية التلافيفية (CNN)‏ لتصنيف تسلسل الحمض 
النووي 

في حالة الاستخدام الثانية» سنتوقع ما إذاكان تسلسل الحمض النووي يمكن أن يرتبط بالبروتين أم Y‏ 
البروتينات المرتبطة بالحمض النووي DNA-binding proteins‏ هي بروتينات لها مجالات ربط 
الحمض النووي وبالتالي لها تقارب affinity‏ محدد أو عام للحمض النووي أحادي أو مزدوج الشريطة 
single- or double-stranded DNA‏ مجال ربط الحمض النووي هو مجال بروتين مطوي بشكل 
مستقل يحتوي على شكل هيكلي واحد على الأقل يتعرف على الحمض النووي المزدوج أو المفرد 
احادي الخيط double- or single-stranded DNA‏ هذا سؤال جينومي وظيفي قياسي للكشف 
عن مواقع ربط عامل النسخفي تسلسل الحمض النووي. 

CERA‏ العصبية التلافيفية Convolutional Neural Networks (CNN)‏ هي فئة من 
الشبكات العصبية العميقة «Deep Neural Networks (DLN)‏ وهي الأكثر استخدامًا لتحليل 
الصور المرئية .visual imagery‏ ار ف أيضًا باسم shift invariant or space Invariant‏ 
Artificial Neural Networks (SIANN)‏ بناءً على بنية الأوزان المشتركة shared-weights‏ 
architecture‏ وخصائص الترجمة الثابتة m translation invariance characteristics‏ 
dou de‏ التعرف على الصور والفيديو mage and video recognition‏ وأنظمة التوصية 
recommender systems‏ وتصنيف الصور «mage classification‏ وتحليل الصور الطبية 
«medical image analysis‏ ومعالجة اللغة الطبيعية «natural language processing‏ وواجهات 
الدماغ ‏ الحاسو ب brain-computer interfaces‏ والسلاسل الزمنية المالية financial time‏ 


series‏ إلخ. 


من المعروف أن CNN‏ تستخدم بشكل عام لتحليل تلافيفات convolutions‏ الصورة ثنائية الأبعاد 
(2D)‏ 2556 الأبعاد (3D)‏ من خلال مجموعة البيانات الجينومية الخاصة cly‏ سيتم تطبيق نموذج 
بسيط CNN‏ (11ومكتبة Keras‏ يمكن تنزيل مثال على تسلسل الحمض النووي وبيانات نص 

التسمية label text data‏ من روابط URL‏ التالية: 
dna sequence - "https://raw.githubusercontent.com/abidlabs/deep-learning-genomics‏ 
-primer/master/sequences.txt"‏ 


dna label = "https://raw.githubusercontent.com/abidlabs/deep-learning-genomics- 
primer/master/labels.txt" 


في المشاريع التفاعلية للتعلم اللي باستخدام Jupyter Notebooks‏ على سبيل JEI‏ سيستغرق 
تحميل هذه البياناتفي إطار بيانات DataFrame‏ ل pandas‏ بعض وقت تشغيل البرنامج. لتجنب 
ذلك» تم تطوير دالة dale‏ بسيطةفي مكتبة PYDNA‏ تقوم هذه الدالة بتحميل هذين الرابطين بالتوازي 


التعلم العميق واستخداماته في المعلوماتية الحيوية 


وإنشاء ملف CSV‏ نهائي بسلسلة تسلسل الحمض النووي وأعمدة رقم التسمية. المعلمة الثالثة 
dna sequence protein"‏ هي اسم معرف لملف CSV.‏ تظهر استدعاء الدالة أدناه. 


PyDNA.GenerateCSVFileParallel(dna sequence, dna label, 
"dna sequence protein'') 


يعد تحميل البياناتفي مشاريع التعلم الآلي مهمة معنية خاصةني منطقة مجال البيانات الضخمة Big‏ 
Data domain‏ حتى مجموعة البيانات البسيطة التى تحتوي على ملايين الصفوف ستبطئ عملية 
تحميل إطار بيانات pandas‏ سيؤدي تطبيق تقنيات مثل Python‏ غير المتزامن وبرمجة المعالجة 
المتعددة إلى تحسين هذه العملية إلى حد كبير. 

يعرض الجدول 3 عشرة صفوف من ملف dna sequence protein.csv'‏ النهائي. تحتوي أعمدة 
"dna label!‏ على قيمتين ثنائيتين: 0 - تسلسل الحمض النووي لا يمكن أن يرتبط بالبروتين و1 - 
يمكن أن يرتبط بالبروتين. هذا هو تصنيف ثنائي بسيط مهمة للتعلم الآلي. 


a 
5 
m 
D 
c 
© 


dna_sequence 
(CCGAGGGCTATGGTTTGGAAGTTAGAACCCTGGGGCTTCTCGCGGACACC 
GAGTTTATATGGCGCGAGCCTAGTGGTTTTTGTACTTGTTTGTCGCGTCG 
GATCAGTAGGGAAACAAACAGAGGGCCCAGCCACATCTAGCAGGTAGCCT 
(GTCCACGACCGAACTCCCACCTTGACCGCAGAGGTACCACCAGAGCCCTG 
(GGGCGACCGAACTCCAACTAGAACCTGCATAACTGGCCTGGGAGATATGGT 
AGACATTGTCAGAACTTAGTGTGCGCCGCACTGAGCGACCGAACTCCGAC 
(CCCGGCGAAGGCTGACGAATCCTCGACCGAACTCCAGTGAAGCCAACCGG 
AGGCAGGTGGTCGTACAATGTTTTCGAAGAGATAGGGGGCCAGAGGCCTC 
(TACTGCCTATAGCGAAGAGCGCGAGAGGTATATCGAAGAATACCGAGCAA 
(CGTATCTTCGTGTGCTCTCCTTTAGAACTGCATCTCTAGAGTCAGAGAGG 


olojo|5|2|2|2lo|olo| 


.dna sequence protein.csv' الجدول 3. صفوف بيانات‎ 


للاطلاع على وصف مجموعة البيانات» تم تطبيق طريقة معلومات اطار بيانات .Pandas‏ تحتوي 
مجموعة البيانات هذه على 2000 صف مع عمودین سلاسل "dna sequence"‏ وأرقام ثنائية 
"dna label‏ من 0 و 1. 


«class 'pandas.core.frame.DataFrame'» 
Into4rndesx: 2000 6ض‎ 2252257 0 EO 1999 
Data columns (total 2 columns): 

f Column Non-Null Count Dtype 

0 dna sequence 2000 non-null object 

1 dna label 2000 non-null int64 
dtypes: int64(1), object(1) 

memory usage: 46.94 KB 

None 


1 تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


قبل تطبيق أي نماذج ANN‏ يجب التحقق من طول تسلسل الحمض النووي للتأكد من انتظامه 
.uniformity‏ نتيجة الكود ادناه هي "True!‏ لذلك يمكن تطبيق نماذج CNN‏ و RNN‏ على 
مجموعة البيانات الجينومية هذه. 


X = PyDNA.select df column(df genomics, "dna sequence") 
dna is same length > PyDNA.dna sequence is equal length (X) 
print(dna is same length) 


تم ترميز تسلسل الحمض النووي DNA sequences‏ وتسميات الفئة class labels‏ باستخدام ترميز 
واحد ساخن .one-hot encoding‏ كما تم توضيحه من قبل» يعد هذا أحد استخدامات الترميز 
القياسية الرئيسيةفي طرازي RNN, CNN‏ يظهر أدناه مثال لترميز واحد ساخن لتسلسل الحمض 


X النووي (ميزات‎ 
EEEO Ta Qu Qu 
Às OQ. Q. 
OQ. Oa La O 
d. Qa Qu. € 
Oa Lo Os Q 
Oa dis 9. Oi rO. Qs ta Qul 
La Os (s Q 
Oa Os. La (9 
Oa Oo Oo T 
Oa La Oe O 
O0. Oa ta OIIE Co La Oa] 
d Qs Q. € 
0. Oo Q. 1L 
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0 s Os O 
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يوجد أدناه كود البرنامج الكامل لتنفيذ نموذج CNN‏ لمجموعة البيانات الجينومية هذه باستخدام 
مكتبة PYDNA‏ المخصصة. 
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import sys 

import time 

import os 

os.system("cls") 

os.environ['TF CPP MIN LOG LEVEL'] - '2'import tensorflow as tf 
tf.random.set seed(10)import tensorflow.keras.backend as K 
from tensorflow.keras.models import load model 

import numpy as np 

import pandas as pd 

MOOSE E Mat OLO DISPOSES aS Tub 

import seaborn as sns 

import requests 

from sklearn.preprocessing import LabelEncoder, OneHotEncoder 
from sklearn.model selection import train test split 

Toon SEleatnN Mell ENES UMOOEE Clas lea EON EEO E, 
confusion matrix, accuracy score 
dfenomgsliltedmnemeyssdiesaeimpornesero cmauc gs conc م‎ SESE, 
recall SESE, fl Score 

from pydna import PyDNAimport warnings 
warnings.filterwarnings ("ignore") def 

get program running(start time): 


nd time > time.process time () 
GHEE Ee = EC tine = Start Eime 
result = tine, sterte HE MI ou, IME Nene (CEE Me) ) 
print("program runtime: í()".format (result)) 
def main(): 


# csv file path and name 

csv path file = r"csv file path/name.csv"4 data frame load 

df genomics - PyDNA.pandas read data("CSV", csv path file, 
None)4 remove rows and columns with missing values. 

df genomics.dropna (how-"all", inplace-True)4 select X features 

X > PyDNA.select df column(df genomics, "dna sequence")f$ check 
if dna sequences have the same legnth - part of dna sequence 


preprocessing! 
dna is same length = PyDNA.dna sequence is equal length (X) 
if dna is same length -- False: 


exit) X features one hot encoder 

X PyDNA.cnn X onehot encoder(X)f select y label 

y > PyDNA.select df column(df genomics, "dna label")f show y 
label imbalanced classes plot 

PyDNA.imbalanced classes plot(y, True, "dna label", "DNA bind 
to protein class", "Count", "DNA Sequence Protein Classes")4 y 
label one-hot encoder 

y = PyDNA.cnn y onehot encoder (y)# data split in train, valid 
and test (80%/10%/10%) 

X EEN, y erain, 3€ ال لحي‎ y WELI, X test, Y TESE = 
ف زم د‎ treun a LIA EN ONS test solir yp Cest Sze 2y 
valid size-0.5)4 create cnn model and get loss/metrics values 
history 

epochs - 50 


1 تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


dare split = 1057 

cnn model, cnn history = PyDNA.create cnn model(y train, 
X train, epochs, data split)$4 plot cnn model loss 

Tome Size = © 

PyDNA.cnn model loss plot(cnn history, font size, "CNN Model 
LOSSY, ESOC, LOSS, Ta للست‎ adsidatd onm) E olot emi mocil 
accuracy 

PyDNA.cnn model accuracy plot(cnn history, font size, "CNN 
Model 266029 ت‎ i; "Uo. Wege. NEAT, 
"Validation"])print("Model Validation") 

* get y predicted valid 

y predicted = cnn model.predict(X valid) # get max indices of 
the maximum values along an axis 


y val max > PyDNA.get max nparray(y valid) 
y predicted max = PyDNA.get max nparray(y predicted) # calculate 
valid classification metrics 
accuracy score value, precision value, recall value, 
fl score value, confusion matrix value, classification report value 
= PyDNA.calculate classification metrics(y val max, 
y predicted max) 
print("valid accuracy 
score: \n{}\n".format (accuracy score value)) 
print("valid precision: Nn()Nin".format(precision value)) 
print("valid recall:Nn()in".format(recall value)) 
print("valid fl score:Nn()Nn".format(fl score value)) 
print("valid confusion 
matrix:Nn()Mn".format(confusion matrix value)) 
print("valid classification 
report: NMn()NAn".format(classification report value))print ("Model 
Test") 
* get y predicted test 
y jexeerehuenexel = ema moel عات لك تدم‎ (5X Test) 


f get max indices of the maximum values along an axis 

y test max > PyDNA.get max nparray(y test) 

y predicted max = PyDNA.get max nparray(y predicted)$* calculate 
Test CLASS E ME SE OM Me ENES 

accuracy score value, precision value, recall value, 
fl score value, confusion matrix value, classification report value 
— PyDNA.calculate classification metrics(y test max, 


y predicted max) 

print("test accuracy 
score:\n{}\n". format (accuracy score value)) 

print("test Precls lon: NDI} DM. 2022021 precision value)) 

SE NE (WEOSNE SCALE A Aao corme (recall valus) ) 

OE ME (ESSE S Sconbec Am NA 2206 ) ل‎ SEOs velue) ) 

print("test confusion 
matrix:NMn()Mn".format(confusion matrix value)) 

print("test classification 


report: Nn()NAn".format(classification report value)) 


التعلم العميق واستخداماته في المعلوماتية الحيوية 


# save cnn model 5 

cnn model path = r"cnn model path ^" 

cnn model name > "cnn model name" 

PyDNA.cnn model save h5(cnn model, cnn model path, 
cnn model name) 


# load cnn model h5 
cnn model - PyDNA.cnn model load h5(cnn model path, 
cnn model name) 


print(cnn model)if name == ' main  ': 
start time > time.process time() 
main )( 


get program running(start time) 
من أول الأشياء التي يجب القيام بهافي مشاريع تصنيف التعلم الآلي هو التحقق من الفئات غير المتوازنة‎ 
كما فعلنا مع مجموعة بيانات عائلة الجينات السابقة. يوضح الشكل 2 مخطط‎ imbalanced classes 
شريطي لتسميات الطبقة الثنائية للحمض النووي. من الواضح أن كلا تصنيفي الفئةفي حالة توازن جيد.‎ 


DNA Sequence Protein Classes 
1013 


n 
0 1 
DNA bind to protein class 


الشكل 2. رسم بياني شريطي لتسميات الطبقة الثنائية للحمض النووي. 


نتائج البرنامج موضحة أدناه. نسبة 97.0./ من درجة دقة الاختبار جيدة جدا. يمكن تطبيق نموذج 
CNN‏ هذا لتصنيف تسلسل الحمض النووي الذي يمكن أن يرتبط بالبروتين el‏ لا. 


1000 


Count 


400 


Layer (type) Output Shape Param 4 
DNE Ec c 1 
max poolingid 1 (MaxPoolingl (None, 9, 32) 0 
flatten 1 (Flatten) (None, 288) 0 


dense 1 (Dense) (None, 16) 4624 


34 


va 


support 0 
98 accuracy 


200 
200test accuracy 


support 0 
99 accuracy 


200 
200 


fl-score 


2) 


1( تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


dense 2 (Dense) (None, 


Total params: 6,226 
'rainable params: 6,226 
Non-trainable params: 0 


m 


lidation accuracy score: 
97.5validation precision: 
97.544validation recall: 

5/5 2511561352 El SCO 

97 Sya Licet iron e OnHsu s on eisq x 


[[98 4] 
[1 97]]validation classification report: 
precision recall 
(0). 939. (PIOS 0.98 1502 
dl و0‎ 96 0.99 
(0.97 200 
macro avg (0). SE 0.98 
weighted avg (0). X8) Oa 97 


fl-score 


oS 


Score: 
97.0test precision: 
97.019test recall: 
977068686 El Segoe: 
97.0test confusion matrix: 


LIES Al 
L 2 NEES Clagsiiicaclon EEPOEES 
precision recall 
0.98 (PISIS 0. ST 101 
i 0 96 0.98 
omon 200 
macro avg (0). 617] omon 
weighted avg Oa y (0), 9*7 


إنها ممارسة جيدة عند استخدام NN‏ © في التعلم الآلي لتصور مخططات التحقق من صحة الخطأ 
والدقة لمجموعات التدريب train‏ / التحقق من الصحة validation‏ استنادًا إلى تكرارات الفترات 
.epoch‏ عدد الفترات number of epochs‏ هو نموذج معلمة فائقة hyperparameter‏ يحدد عدد 
المرات التي ستعمل فيها خوارزمية التعلم من خلال مجموعة بيانات التدريب بأكملها. يوضح الشكل 
3 مخطط خطأ التدريب / التحقق من صحة نموذج CNN‏ (منحنى (curve‏ بمجرد أن تتوقف خطأ 
مجموعة التحقق عن التحسن أو تزداد سوءًا خلال دورات التعلم» فقد حان الوقت لإيقاف التدريب 
oy‏ النموذج قد تقارب converged‏ بالفعل وقد يكون مجرد ضبط زائد 07186628.في حالتناء 
يجب أن يكون عدد الفترات بين 40 و 50. يجب ألا يكون هذا الرقم أقل من 40 لمنع الضبط الناقص 
النموذج -underfitting‏ لذاء فإن اختيار عدد الفترات مهم جدا لضمان درجة دقة نموذج CNN‏ 


التعلم العميق واستخداماته في المعلوماتية الحيوية 


CNN Model Loss 


الشكل 3. مخطط خطأ التدريب / التحقق من صحة لنموذج CNN‏ 


يوضح الشكل 4 مخطط دقة تدريب / التحقق من الصحة لنموذج .CININ‏ كما ترى» بعد 30 فترة 
تكون دقة مجموعة التحقق مستقرة. لذلك» من خلال الجمع بين هاتين المخططين» يمكننا أن نستنتج 
أن اختيار عدد الفترات بين 40 و 50 هو حل جيد لمجموعة بيانات الجينوم المحددة هذه. 


CNN Model Accuracy 


0.7 - 


— Train 
سس‎ Validation 


الشكل 4. مخطط دقة تدريب / التحقق من الصحة لنموذج CNN‏ 
4. تطبيق شبكات الذاكرة طويلة قصيرة المدى (LSTM)‏ لتصنيف تسلسل 
الحمض النووي 
الشبكة العصبية المتكررة Recurrent Neural Network (RNN)‏ حي فئة من الشبكات العصبية 
الاصطناعية Artificial Neural Networks (ANN)‏ حيث تشكل الاتصالات بين العقد رسمًا 
بيانيًا موجهًا على طول تسلسل زمني temporal sequence‏ هذا يسمح لها بإظهار السلوك الديناميكي 


1 تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


الزمني .temporal dynamic behavior‏ المشتقة من الشبكات العصبية امامية التغذية 
feedforward neural networks‏ يمكن لشبکات RNN‏ استخدام حالتها الداخلية internal‏ 
state‏ (الذاكرة (memory‏ لمعالجة تسلسلات متغيرة الطول من المدخلات. هذا يجعلها قابلة للتطبيق 
على مهام مثل التعرف على خط اليد handwriting recognition‏ غير المقسم أو المتصل أو التعرف 
على الكلام -speech recognition‏ 


الذاكرة طويلة قصيرة المدى Long Short-Term Memory (LSTM)‏ هى RNN iı‏ 
المستخدمةفي مجال التعلم العميق. على عكس الشبكات العصبية ذات التغذية الأمامية القياسية» ob‏ 
4 لديها اتصالات bis‏ مرتدة .feedback connections‏ لا يمكنها فقط معالجة نقاط 
البيانات الفردية (مثل الصور)ء ولكن أيضًا التسلسل الكامل للبيانات (مثل الكلام أو الفيديو). على 
سبيل المثال» يمكن تطبيق 1 على مهام مثل التعرف على خط اليد handwriting‏ 
recognition‏ غير المقسم والمتصل والتعرف على الكلام speech recognition‏ واكتشاف 

الانحراف anomaly detection‏ حركة مرور الشبكة أو أنظمة كشف التسلل IDSs‏ 


LSTMs‏ قادرة على تعلم التبعيات طويلة المدى long-term dependencies‏ مع حفظ العديد من 
الخطرات السايقةق (ees‏ مما يوقر cos‏ كافية oa‏ يشر gb LSTM.‏ عهسة معالجة متا 
قد يوجد فيها تحلل هرمى محتمل» لكن لا تعرف Goms‏ ما هو هذا التحلل decomposition‏ إذا 
ندا التحنضى الفزوى رل laeti ib pb 8,515 col‏ بنج خا cobi Yl‏ طويلة المدى long-‏ 
range correlations‏ على طول التسلسل» Bub‏ لا نطبق خوارزمية LSTM‏ لتصنيف تسلسل 
الحمض النووي. 


لتشغيل خوارزمية LLSTM‏ التغييرات التالية مطلوبةفي البرنامج السابق باستخدام CNN‏ 


f create lstm model and get loss/metrics values history 

epoch - 50 

data split - 0.2 

lstm model, lstm history - PyDNA.create lstm model(y train, 

X train, epoch, data _split)# plot lstm model loss 

tone sire = 0 

PyDNA. lstm model loss plot(lstm history, font size, "LSTM Model 
Loss“, LEDGER, Ua. Wap. Yyalicdeariont y; olot diee model 
accuracy 
PyDNA.lstm model accuracy plot(lstm history, font size, "LSTM Model 
ACEC, Wisengim, Wiese. EATEN, LUA) 


بالنسبة إلى ملف "dna sequence protein. csv‏ نفسه. تظهر النتائج أدناه. 
Layer (type) Output Shape Param #‏ 


convid 1 (ConviD) (None, 5397 325 1568 
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lstm 1 (LSTM) (None, 39, 64) 24832 
max poolingld 1 (MaxPoolingl (None, 9, 64) 0 
flatten 1 (Flatten) (None, 576) 0 
masking 1 (Masking) (None, 576) 0 
dense 1 (Dense) (None, 64) 36928 
dropout 1 (Dropout) (None, 64) 0 
dense 2 (Dense) (None, 2) LIO 


Total params: 63,458 
Trainable params: 63,458 
Non-trainable params: 0 


validation accuracy score: 
98.5validation precision: 
98.545validation recall: 
98.5validation f1 score: 
9580755111 كت‎ 1 enc onmfus omneis» 


[99 3] 
[0 98]]validation classification report: 
precision recall fil-score support 0 

1.00 0 937 0:99 1502 

1 (0. 817] 3L 4.0) (0). 9X8) 98 accuracy 
0.98 200 

macro avg (0). O19) (POI (0) OS 200 
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Score: 
99.5test precision: 
99.505test recall: 
99.5test fl score: 
99.5test confusion matrix: 


[[100 3b] 
L O SON 1 8526 classi ication SOE 
precision recall f1-score support 0 
1L 519), (0). 98) 1.00 O 
1 07 SS IOO (0). 9) 99 accuracy 
6 9S 200 
macro avg 0 IOO 09 200 
weighted avg La OO 0. 99 O0 200 


عند تقييم أداء النموذج على بيانات الاختبار. كانت درجة الدقة التي تم الحصول عليها 99.5/. لقد 
قمت بتشغيل مجموعتين من مجموعات البيانات الجينومية وخوارزميات LSTM‏ توفر أفضل النتائج 
لتصنيف تسلسل الحمض النووي حتى الآن. إذا طبقنا خوارزمية مصنف بيربيرسترون Perceptron‏ 


1 تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


متعدد الطبقات MLPClassifiero‏ فيمكن عرض النتائج النهائية أدناه. درجة دقة الاختبار جيدة جد 
مثل 98.0/. لا يزال أداء خوارزمية LSTM‏ أفضل. 


ACCURACY SCORES‏ 621201 1602 للك 

96 . 0177311031602 precision: 

go 25 165 call 
96.0validation f1 score: 

95. SOSYAL ا‎ MEE E 


19S © 
[0 99]]validation classification report: 
precision recall fi1-score support 0 

1L. 100) 0)... 92 (9G 101 

iji 023 3L 5 (010) O GG 99 accuracy 
096 200 

macro avg 020066 0a S6 096 200 

weighted avg 0, SG 006 (ROIG 200test accuracy 
Score: 


98.0test precision: 
98.078test recall: 
98.0test fl score: 
98.0test confusion matrix: 


19S a 
[0 98]]test classification report: 
precision recall f1-score support 0 
1L. © 96 0.98 102 
i 0.96 JL. (0) (PIS 98 accuracy 
0.98 200 
macro avg (0) «. 8) 0.98 (0). Si 200 
weighted avg (PIOS (0G 0.98 200 


يوضح الشكلان 5 و 6 مخططات خطأ ودقة التدريب / التحقق من الصحة نموذج .LSTM‏ كما $5« 
يمكن أن يضمن اختيار عدد الفترات بين 30 و 40 Ve flol‏ لنموذج 1.511/1. 


LSTM Model Loss 


—— Train 
—— Validation 


Epoch 


الشكل 5. مخطط خطأ التدريب / التحقق من الصحة لنموذج LSTM‏ 
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O1 
e 


LSTM Model Accuracy 


—— Train 
—— Validation 


10 
Epoch 


الشكل 6. مخطط دقة التدريب | التحقق من الصحة لنموذج .LSTM‏ 


تم الحصول على النتائج أدناه باستخدام نموذج Mulünomial Naive Bayes cimes‏ 
.MultinomialNBO‏ حستًاء كما ترى» لا يعمل هذا المصنف جيدا مع مجموعة البيانات الجينومية 
المحددة oia‏ هذا مثال عملى جيد جد لإثبات أن كل مجموعة بيانات جينية فريدة من نوعها وأن 
أفضل الممارسات لأي علماء بيانات هي تطبيق جميع خوارزميات التعلم الآلي التقليدية والحديثة لكل 
منها. يعتقد العديد من علماء البيانات أن التعلم العميق يمكنه فعل كل شي ءي التعلم الآلي لهم اليوم. 
من السهل جد إثبات أنه حتى خوارزميات Extreme Gradient Boosting ; Random Forest‏ 
قد حققت أداءً أفضلني كثير من الحالات مقارنة بخوارزميات التعلم العميق بماني ذلك CNN‏ و 
sls e «WI .LSTM‏ بتطبيقها جميعًا على كل مجموعة بيانات جينية محددة واستخدم المجموعة 
ذات المقاييس الأفضل أداء. أتفهم أن هذا قد يستغرق بعض الوقت ولكنه شرط ضروري للغاية 
validation accuracy score:‏ 

80.5validation precision: 

86.011validation recall: 

SOS Svea dation El SEBE; 

79.772validation confusion matrix: 


] ]652 39] 
[0 99]]validation classification report: 


precision recall fil-score support 0 
1 O0 (0). (Sl (0). 275 101 
1 0o 72 dE (00) 0.84 99 accuracy 
omoi 200 
macro avg 0.86 omeni 00030 200 
weighted avg 0.86 0.81 0.80 200test accuracy 


Score: 

79.5test precision: 
85.547test recall: 

7O Strese El Scones 
720769505612 CONCUSSION MAE 


accuracy 


5- الاستنتاجات 


1( تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


classification report: 
precision recall fil-score 
0 102 
Oa yi JL 4. (9) 


support 
099 98 


200 
200 


DEEL 41] 
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تم تطوير مكتبة PYDNA‏ المخصصةفي Python‏ لمعالجة السلاسل النصية string‏ 
لتسلسل DNA | RNA‏ / البروتين ومجموعات البيانات الجينومية لتصنيف التعلم الآلي. 
لزيادة أداء معالجة السلاسل النصية تسلسلات الحمض النووي الكبيرة» يوصى باستخدام 
NumPy ndarrys‏ حيثما أمكن ذلك. 

ف فقديى وقطيل LLLA‏ الف i d‏ مل الح اوري AED Rat JE‏ ترمد 
التسميات «Label Encoding‏ والترميز الواحد الساخن .One-hot Encoding‏ وعد 
.K-mer Counting K-mer‏ 

تم تنفيذ خوارزمية حقيبة الكلمات bag of words‏ من معالجة اللغة الطبيعية لمعالجة 
اا ااه adul ial alos‏ 

يمكن أن يحدد التوحيد uniformity‏ طول تسلسل الحمض النووي عبر مجموعة البيانات 
خوارزمية التعلم الآلي المناسبة لاستخدامها. 

توفر نماذج مصنف نايف متعدد الحدود Multinomial Naive‏ وبيربيرسترون متعدده 
الطبقات Multi-layer Perceptron‏ أكثر من 97 / من درجة دقة التصنيف مع مجموعة 
بيانات DNA‏ متعددة الفتات ولا يوجد طول سلسلة موحد. 

يمكن أن يوفر نموذج الشبكات العصبية التلافيفية CININ‏ 97 / من دقة التصنيف مع طول 
TUN UTEM UNICUM‏ 

يوفر نموذج الذاكرة طويلة المدى قصيرة المدى LSTM‏ أفضل نتيجة بنسبة 199.5 من 
درجة دقة التصنيف مع طول سلاسل تسلسل الحمض النووي الموحد. 

يوصى بشدة بتطبيق جميع خوارزميات تصنيف التعلم الآلي التقليدية والحديثة على أي 
مجموعة بيانات جينية ومعرفة النموذج الذي يوفر أفضل نتائج التنبؤ. 


المصدر: 


https://medium.com/mlearning-ai/apply -machine-learning-algorithms-for- 


genomics-data-classification- 132972933723 


2( بناء نماذج تجميع تعلم الآلة للتعبير الجيني لبيانات RNA-Seq‏ 


RNA-Seq بناء نماذج تجميع تعلم الآلة للتعبير الجيني لبيانات‎ (2 
Building Machine Learning Clustering Models for Gene 
Expression RNA-Seq Data 

1. المقدمة 

التجميع (التكتل) Clustering‏ هو مجموعة من التقنيات المستخدمة لتقسيم البيانات إلى مجموعات 
groups‏ أو تكتلات clusters‏ يتم تعريف التجميع بشكل فضفاض على أنها مجموعات من كائنات 
البيانات التي تشبه إلى حد كبير كائنات أخرىفي مجموعتها أكثر من كائنات البياناتفي مجموعات 
أخرى Sag! .("'K-Means Clustering in Python: A Practical Guide")‏ الأساسي من 
التجميع هو تجميع البياناتفي مجموعات Fly‏ على التشابه similarity‏ أو الكثافة density‏ أو الفواصل 
الزمنية intervals‏ أو مقاييس التوزيع الإحصائي particular statistical distribution measures‏ 
الخاصة لفضاء البيانات data space‏ ("مناهج التجميع القائمة على التعلم العميق للمعلوماتية 
الحيوية"). بشكل cele‏ يساعد التجميعفي تحليل البيانات غير المهيكلة وعالية الأبعادفي شكل تسلسلات 


وتعبيرات ونصوص وصور. 


2. استخدام خوارزميات التجميع في المعلوماتية الحيوية 

تحتوي بيانات التعبير الجيني Gene expression data‏ على بيانات المصفوفة الدقيقة ل DNA‏ 
(DNA microarray data)‏ وبيانات تسلسل , .(RINA-seq data) RNA‏ يساعد تحلیل بيانات 
المصفوفات الدقيقة على توضيح الآليات البيولوجية ودفع الأدوية نحو مستقبل أكثر قابلية للتنب. مقارنة 
بتقنية المصفوفة الدقيقة القائمة على التهجين hybridizatüon-based microarray‏ 
RNA-seq ol «technology‏ لديها نطاق أكبر من مستويات التعبير» ويتم الكشف عن المزيد من 
المعلومات ("إستراتيجية اختيار ميزة فعالة تعتمد على تقنية آلة المتجهات الداعمة المتعددة مع بيانات 
FONS‏ 


أحدثت المصفوفات الدقيقة للحمض النووي DNA microarrays‏ ثورةفي نهج تنميط التعبير الجيني. 
مقارنة بالطرق السابقةء تتمتع المصفوفات الدقيقة للحمض النووي بإنتاجية عالية جد وأقل تعقيدا. تم 
تطوير المصفوفات الدقيقة كأسلوب لرسم خرائط الحمض النووي على نطاق واسع وتسلسله. ومع 
ذلك فإن تغيير سطح الدعم من غشاء مسامي porous membrane‏ إلى سطح صلب solid surface‏ 
أتاح تحسينات كبيرة عن طريق زيادة حركية التفاعل وتقليل ضوضاء الخلفية. تستمر تقنية المصفوفات 
الدقيقة للحمض النوويني التطور ("المصفوفات الدقيقة للحمض النووي من الفصل السابعفي 
الاكتشاف البيولوجي ورعاية المرضى'). 
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بعض تطبيقات التجميع (iclustering‏ المعلوماتية الحيوية Bioinformatics‏ يمكن أن تكون: 
مجموعات محددة من المرضى الذين يستجيبون بشكل مختلف للعلاجات الطبية لتحديد المرض؛ 
تكشف عن مجموعات من الجينات ذات الصلة وظيفيًا حيث تشترك الجينات ذات المسافة الصغيرة 
في نفس أنماط التعبير وقد تكون متشابهة. يمكن أن يكون تصور البيانات البيولوجية عالية الأبعاد 
والواسعة النطاقفي مجملها غير المنظم وتفسيرها وتحليلها Vl‏ محيرًا ما لم يتم تنظيم البياناتفي 
مجموعات. مثال آخر هو تجميع الجينات أو الصور الطبية الحيوية من خلال تعلم الأنماط المخفية من 
مجموعة بيانات غير مسماة unlabeled dataset‏ ("إستراتيجية اختيار ميزة فعالة تعتمد على تقنية الة 
المتجهات الداعمة المتعددة مع بيانات التعبير الجيني'). 


أصبح RNA-Seq‏ البيانات الرئيسية لقياسات التعبير الجيني ويقدم العديد من المزايا على 
المصفوفات الدقيقة. علاوة على ذلك. أصبحت التجارب أحادية الخلية مشروعًا us‏ أساسيًا 
للمعلوماتية الحيوية» حيث تعد خوارزميات التجميع جزءًا مهما من تنفيذ مشاريع التعلم الآلي 
.Machine Learning (ML)‏ 


في ورقة التعلم الآلي هذه سيتم تطبيق خوارزمية التجميع K-Means‏ لبناء نموذج متوقع لمجموعة 
بيانات تعبير الجيني ل .RINA-Seq‏ تعد خوارزمية التجميع هذه تقنية تعلم غير خاضعة للإشراف 
Unsupervised Learning‏ تستخدم لتحديد مجموعات كائنات البيانات متعددة الأبعادفي مجموعة 
بيانات. تعد خوارزمية التجميع K-Means‏ جزءًا من مكتبة إطار عمل ML scikit- Learning‏ 
الشهيرة. 


3. مجموعة بيانات RNA -Seq‏ للتعبير الجيني للسرطان 

يمكن تنزيل مجموعة بيانات RINA-Seq‏ للتعبير الجيني للسرطان من مستودع التعلم الآلي UCI‏ 
هذه المجموعة من البيانات هي جزء من مجموعة بيانات أطلس RNA-Seq (HiSeq) Pan-‏ 
Cancer Atlas‏ هو استخراج عشوائي للتعبيرات الجينية للمرضى الذين يعانون من أنواع مختلفة من 
الأورام بمافي ذلك سرطان الثدي الغازي CA) Breast invasive carcinoma‏ BR)وسرطان‏ الخلايا 
الكلوية الصافية -(COAD) » Kidney renal clear cell carcinoma‏ سرطان القولون الغدي 
(COAD).Colon adenocarcinoma‏ وسرطان الغدة الرئوية Lung adenocarcinoma‏ 
LUAD)‏ وسرطان البروستاتا (PR AD) Prostate adenocarcinoma‏ يحتوي الملف الذي تم 
CTCGA-PANCAN-HiSeq-80120531.tar.gz «45575‏ على ملفين CSV‏ يمثل ملف 
0262.057 الميزة X‏ التعلم الال ويمثل ملف label. csv‏ بيانات الهدف y‏ (التسمية (label‏ تحتوي 
مجموعة البيانات على قيم RNA-Seq‏ للتعبير الجيني من 20531 جينا إلى 881 عينة. 


2( بناء نماذج تجميع تعلم الآلة للتعبير الجيني لبيانات RNA-Seq‏ 


تم توفير تحليل الفئة غير المتوازن imbalanced class analysis‏ مجموعة البيانات goia‏ ورقة 
"تصنيف التعبير الجيني RINA-Seq‏ باستخدام خوارزميات التعلم الآلي". يحتوي المخطط الشريطي 
bar chart‏ الموضح أدناه على فئة غير متوازنة لمجموعة البيانات الجينومية المختارة. 


Cancer Gene Expression RNA-Seq Dataset 
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بعد تطبيق خوارزمية تقنية الإفراطني أخذ عينات الأقليات الاصطناعية Synthetic Minority‏ 
Technique (SMOTE)‏ ingا0versamp.‏ تمت موازنة جميع الفئات ب 300 صف لكل Lg‏ 
كما ترونني المخطط الشريطي الأخير أدناه. باستخدام مكتبة PYDNA‏ سيتم تحويل الميزة X‏ 
والتسمية y‏ باستخدام الدالة الموجودة أدناه -balance class smoteQ‏ 


def balance class smote(X, y): 
"""X and Y smote over sampling 
args: 
X feature 
y label 
returns: 
smote X feature 
smote y label 
nw 
لدعا‎ 
smote over sampling = SMOTE(random state-50, n jobs--1) 
X, y - smote over sampling.fit resample(X, y) 
except: 
print(PyDNA.get exception info()) 
if PyDNA. app is log: PyDNA.write log file("error", 
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PyDNA.get exception info()) 
return X, y 


# calling function 
X, y = PyDNA.balance class smote(X, y) 
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تم استخدام تحليل المكونات الرئيسية 24e | HJ Principal Component Analysis (PCA)‏ 
ميزات X‏ (الأعمدة) إلى 10-7 من 20531- يمكن تصور مجموعة البيانات غير المجمعة non-‏ 
clustered dataset‏ باستخدام المكونين الأو ل والثاني ل .PCA‏ يوجد أدناه الدالة 

pca x reduction()‏ ومخطط التصور. 


pca = PCA(n components-config.PCA N COMPONENTS COUNT, random state-50) 
def pca x reduction(pca, X): 
""" X feature reduction 
args: 
pca class object 
X feature 
returns: 
X new feature 
PCA explained variance 
cumulative sum of eigen values 
nw 
EV 
X > pca.fit transform(X) 
pca explained variance - pca.explained variance ratio 
cumulative sum eigenvalues - np.cumsum(pca explained variance) 
except: 
print(PyDNA.get exception info()) 
if PyDNA. app is log: PyDNA.write log file("error", 
PyDNA.get exception info()) 
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return X, pca explained variance, cumulative sum eigenvalues 


f calling function 
X — PyDNA.pca x reduction(pca component number, X) 
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4. مقاييس تقييم تجميع K-Means‏ 


على عكس التعلم الخاضع للإشراف Machine Supervised Learning AVI‏ لدينا الحقيقة 
الأساسية لتقييم أداء النموذج» لا يحتوي تحليل المجموعات على مقياس evaluation metric e‏ 
قوي يمكننا استخدامه لتقييم نتائج خوارزميات التجميع المختلفة. علاوة على ذلك K- oM ls‏ 
25 تتطلب عدد المجموعات k‏ كمدخلات ولا تتعلمها من البيانات. فلا توجد إجابة صحيحة من 
حيث k‏ يجب أن تكون لدينافي أي مشكلة.في بعض الأحيان قد تساعد المعرفة والحدس بالمجال ولكن 
هذا ليس هو الحال عاددةً.في منهجية التنبؤ التكتلي ccluster-predict methodology‏ يمكننا تقييم 
مدى جودة أداء النماذج sU‏ على مجموعات (k clusters) k‏ المختلفة حيث يتم E‏ 
المجموعاتفي النمذجة النهائية. يمكنني أن أوصيت الجميع بقراءة وفهم الورقة البحثية "تجميع K-‏ 
الخوارزمية:» والتطبيقات . وطرق التقييم c‏ والعيوب". 


5. تحديد aac‏ المجموعات باستخدام طريقة الكوع 

يقة الكوع Elbow Method‏ هي الطريقة الأكثر شيوعًا لتحديد العدد الأمثل للعناقيد 
(المجموعات) clusters‏ تستخدم هذه الطريقة معلمة مجموع الخطأ التربيعي Sum of Squared‏ 
Error (SSE)‏ بين نقاط البيانات data points‏ والنقاط الوسطى للمجموعات clusters’ centroids‏ 
المخصصة لها. يجب تحديد قيمة المجموعة في المكان الذي يبدأ فيه OSSE‏ التسوية وتشكيل كوع. 
يوجد أدناه كود لحساب SSE‏ ومخطط طريقة الكوع. 


def calculate kmeans sse(X, max elbow number): 
""" calculate sum of squared error (sse) 
args: 
X feature 
max of elbow number 
returns: 
SSE 


nim 


EX 
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sse = [] 
for i in range(1, max elbow number): 
kmeans = KMeans(n clusters-i, random state-50) 
kmeans.fit (X) 
sse.append(kmeans.inertia ) 
except: 
print(PyDNA.get exception info()) 
if PyDNA. app is log: PyDNA.write log file("error", 
PyDNA.get exception info()) 
return sse 


def elbow method plot(sum squared error, max elbow number): 
"""elbow method clustering plot 
args: 
sum squared error 
max of elbow number 
return: 
None 
now 
CEY 
plt.grid(True) 
plt.plot(range(1, max elbow number), sum squared error) 
plt.title("Elbow Method - Cancer Gene Expression RNA-Seq") 
plt.xlabel("Number of clusters") 
plt.ylabel("Sum of Squared Error (Distortion)") 
plt.show() 
except: 
print(PyDNA.get exception info()) 
if PyDNA. app is log: PyDNA.write log file("error", 
PyDNA.get exception info()) 


f calling functions 

max elbow number = config.MAX ELBOW NUMBER 

sum squared error = PyDNA.calculate kmeans sse(X, max elbow number) 
PyDNA.elbow method plot(sum squared error, max elbow number) 
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كما نرى» يجب أن يكون العدد الصحيح من المجموعات خمسة. كل واحد منهم يمثل فئة السرطان. 
هناك طرق أخرى متاحة لتحديد العدد الأمثل للمجموعات بمافي ذلكفي المقالة "5 طرق لتقرير عدد 
المجموعاتفي نموذج الكتلة". 


6. الستخدام مكتبة Kneed‏ لتحديد aac‏ المجموعات 

تستخدم مكتبة kneed‏ للكشف عن ikä‏ الركبة .Python jknee-point detection‏ بالنظر إلى 
مجموعة من قيم X‏ و iy‏ سيعيد kneed‏ نقطة الركبة للدالة. نقطة الركبة knee-point‏ هي نقطة 
الانحناء الأقصى .point of maximum curvature‏ إذا كانت طريقة الكوع LLU io‏ لتحديد 
عدد المجموعات. فإنني أوصي باستخدام هذه المكتبة للتحقق من العدد الأمثل الصحيح للمجموعات 
optimal number of clusters‏ وتحديده. يوجد أدناه كود دالة get kneed elbow point()‏ 
الذي يحسب خمس مجموعات. كما ترون نتيجة مكتبة dida kneed‏ تحقق من صحة T‏ 


الاختيار الصحيح باستخدام طريقة الكوع. 


def get kneed elbow point(x coordinate , y coordinate ): 
"""determine the kneed elbow point 
args: 
X coordinate 
y coordinate 
returns: 
kneed elbow point 
"mmi 
EE 
kneed locator - KneeLocator(x-x coordinate, y-y coordinate, 
curve-"convex", direction-"decreasing") 
kneed locator elbow = kneed locator.elbow 
except 
print(PyDNA.get exception info()) 
if PyDNA. app is log: PyDNA.write log file("error", 
PyDNA.get exception info()) 
return kneed locator elbow 


f calling functions 

max elbow number = config.MAX ELBOW NUMBER 

sum squared error = PyDNA.calculate kmeans sse(X, max elbow number) 
kneed locator elbow = PyDNA.get kneed elbow point (range (1, 

max elbow number), sum squared error) 

print(kneed locator elbow) 


Result: 5 


7. تطبيق نموذج التجميع K-Means‏ 
الآن بعد أن علمنا أن عدد المجموعات هو خمسة. يمكن تطبيق نموذج K-Means‏ كما هو موضح 
أدناه. 
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number clusters = config.NUMBER CLUSTERS 

k means — PyDNA.k means model(number clusters) 

y predicted - PyDNA.k means predict (X) 

cluster centroids = 

PyDNA.k means cluster centroids(kmeans.cluster centers ) 
print(cluster centroids) 


فيما يلى النقط الوسطى للمجموعة cluster centroids‏ لمجموعة البيانات المحددة. 


[ =8. 45801335 409145929515 76.74888149 -57.7594838 8 4.03079771 
16.34636755 23999099909 

1399960991 59 C57 /41410924 6 9399511099992 4.60164944 500105 
SOE ISOS 

SIA OMI A212 ATA220415 0.1502055 —2:2«900/00/91]/9 1] 1958/00162 
3.59466095 5.54235961 
-106.38275644 4.-90.37657514 -41.62782788 2.08651512 -9.49929942 
-11.24228754 20500960827 
-8.43637589 96/325531:939 54.76312094 72.61165042 1.44742792 
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باستخدام نموذج K-Means‏ والتسميات المتوقعة predicted labels‏ . يمكننا رسم المجموعات 
الخمس لكل نوع من للتعبير الجيني لبيانات RINA-seq‏ للسرطان. 
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K -Means المعدل ل‎ vlj uu$ o مقياس‎ .8 

المقياس الشائع للتحقق من أداء نموذج K-Means‏ يسمى مؤشر Rand‏ المعدل Adjusted Rand‏ 
Index (ART)‏ على عكس معامل «(Silhouette Coefficient) Silhouette‏ يستخدم ARI‏ 
تعيينات مجموعة حقيقية لقياس التشابه بين التسميات الحقيقية والمتوقعة. تتراوح قيم إخراج ARI‏ 
ن 0a‏ و10 »تشير الدرجة القريية من OLD‏ إلى تات diy itl ute‏ الدرجة القربية 5a‏ 1.0 
إلى مجموعات مسماة -GLS‏ يتم تحديد ARI‏ أدناه بمقدار -0.5 للتجمعات المتنافرة بشكل خاص. 
يحسب سطر الكود أدناه قيمة ARI‏ باستخدام الدالة .aleulate adjusted rand score()‏ يمثل 
الرقم 0.98 ell‏ جيدا جدا لنموذج K-Means‏ المحدد لدينا. 
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def calculate adjusted rand score(y, y predicted): 
""" calculate the adjusted rand score 
args: 
y label 
y predicted label 
returns: 
adjusted rand score 
nom 
CEV: 
adjusted rand index = 
adjusted rand index = 
float("(0:0.2f£)".format(adjusted rand index)) 


adjusted rand score(y, y predicted) 


except: 
print(PyDNA.get exception info()) 
if PyDNA. app is log: PyDNA.write log file("error", 
PyDNA.get exception info()) 
return adjusted rand index 


f calling function 
adjusted rand index - 
y predicted) 
print(adjusted rand index) 


PyDNA.calculate adjusted rand score (y, 


Result: 0.98‏ 
يمكن إنشاء مخطط مجمع ثلاثي الأبعاد باستخدام مكتبة -matplotlib‏ 
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9. تحليل صورة Silhouette‏ لتجميع K-Means‏ 
يستخدم تحليل (Silhouette Analysis) Silhouette‏ لدراسة المسافة الفاصلة بين العناقيد الناتجة. 
(A jn‏ ميخطط Silhouette) o‏ اسا لمدى قر ب كل (Alas‏ جرع والحدة من التفاظ الجر ةة 


في المجموعات المجاورة» وبالتالي يوفر طريقة لتقييم المعلمات مثل عدد المجموعات بصريًا. هذا 


للمساعدةفي تحديد العدد الأمثل للمجموعاتء. يوفر تحليل صورة Silhouette‏ هذا مقياسين 
رئيسيين. silhouette samplesO‏ — حساب معامل Silhouette‏ لكل عينة. أفضل قيمة هي 1 


- silhouette score() قيمة هي -1. تشير القيم القريبة من 0 إلى مجموعات متداخلة.‎ mn 
لجميع العينات. ترجع هذه الدالة متوسط معامل صورة‎ Silhouette حساب متوسط معامل صورة‎ 
silhouette samples) استخدم‎ cine كل‎ ed على جميع العينات. للحصول على‎ Silhouette 
أفضل قيمة هي 1 وأسوأ قيمة هي -1. تشير القيم القريبة من 0 إلى مجموعات متداخلة. تشير القيم‎ 
السالبة بشكل عام إلى أنه تم تعيين عينة إلى المجموعة الخاطئة. حيث أن المجموعة المختلفة أكثر‎ 
Silhouette تشابها. هذا هو الكود لحساب قيمة نتيجة صورة‎ 


def calculate print silhouette 5262 (XJ; 
"""Ccalculate silhouette score for each cluster number 
args: 
X feature 
returns 
None 
Www 
Erys 
range number Clusters > (27 37 4, 51 
for number cluster in range number clusters: 
print(number cluster) 
kmeans = KMeans(n clusters-number cluster, 
random state-50) 
y cluster labels = kmeans.fit predict (X) 
silhouette score avg = silhouette score(X, 
y cluster labels) 
print(silhouette score avg) 
except: 
print(PyDNA.get exception info ()) 
if PyDNA. app is log: PyDNA.write log file("error", 
PyDNA.get exception info()) 


f calling function 
PyDNA.calculate print silhouette score (X) 


بالنسبة لمجموعة البيانات الخاصة بناء يعرض الجدول أدناه قيم درجات صورة Silhouette‏ المحسوبة 
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Number of Clusters Silhouette Score 


كما يمكننا أن نرى أعلى قيمة لدرجة صورة Silhouette‏ هي 7 لخمس مجموعات. لذلك e‏ 
التحقق من العدد الأمثل للمجموعات لمجموعة البيانات الخاصة بنا على أنه خمسةء كما ينبغى أن 
يظهر مخطط الصورة Silhouette‏ أدناه. يعطي سمك هذه المخطط مؤشرا على حجم كل مجموعة. 
إنه يثبت أنه بالنسبة لخمس مجموعات. أعلى قيمة لدرجة صورة Silhouette‏ هي 0.57. 
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Silhouette Analysis Plot (4 clusters) Visualization of Clustered Data 
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0. الاستنتاجات 

1. أثبتت خوارزمية التجميع K-Means‏ أنها خيار جيد للتعبير الجيني متعدد الأبعاد 
لمجموعات بيانات .RINA-Seq‏ 
توفر طريقة الكوع حلاً رسوميًا بسيطًا لتحديد العدد الأمثل للمجموعات. 
يمكن لمكتبة Need‏ أن تحدد وتتحقق من العدد الأمثل للمجموعات للتعبير الجينى متعدد 
الأبعاد لمجموعات بيانات ٠ .RNA-Seq‏ 

4. تعد قيمة مؤشر Rand‏ المعدل مقياسًا Deas‏ للتحقق من أداء نموذج .K-Means‏ 
يوفر تحليل صورة Silhouette‏ حلاً جيدا لتحديد العدد الأمثل للمجموعات باستخدام 
حسابات عينات صور Silhouette‏ ومقاييس النتيجة .Score metrics‏ 
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المصدر: 


https://ernest-bonat.medium.com/building-machine-learning-clustering- 


models-for-gene-expression-rna-seq-data-d0e5af10416d 


3( تصنيف التعبير الجيني ل RNA-Seq‏ باستخدام خوارزميات التعلم الآلي 


3( تصنيف التعبير الجيني ل RINA-Seq‏ باستخدام خوارزميات التعلم الآلي 
RNA-Seq Gene Expression Classification Using Machine‏ 
Learning Algorithms‏ 

1. نظرة عامة 

من موقع المعهد القومي لبحوث الجينوم البشري National Human Genome Research‏ 
Institute (NHGRI)‏ يمكننا أن نرى بعض أمثلة تطبيقات الذكاء الاصطناعي / التعلم الآليني علم 
الجينوم. 


o‏ فحص وجوه الأشخاص باستخدام برامج الذكاء الاصطناعي لتحليل الوجه لتحديد 
الاضطرابات الوراثية بدقة. 

liquid. استخدام تقنيات التعلم الآلي لتحديد النوع الأساسي للسرطان من الخزعة السائلة‎ e 
.biopsy 

e‏ توقع كيفية تطور نوع معين من السرطان لدى المريض. 

ه تحديد المتغيرات الجينية genomic variants‏ المسببة للأمراض مقارنة بالمتغيرات 
الحميدة benign variants‏ باستخدام التعلم الآلي. 

CRISPR استخدام التعلم العميق لتحسين وظيفة أدوات تحرير الجينات مثل كريسبر‎ e 


دعونا نعرف التعبير الجيني gene expression‏ . التعبير الجيني هو العملية التي يتم من خلالها استخدام 
المعلومات المشفرةفي الجين إما لصنع جزيتات ARNA‏ ترمز للبروتينات أو لصنع جزیثات RNA‏ 
غير مشفرة تخدم وظائف أخرى. يعمل التعبير الجيني بمثابة "مفتاح تشغيل / إيقاف" للتحكمني متى 
وأين يتم تصنيع جزيئات وبروتينات الحمض النووي الريبي RNA)‏ و"التحكمفي الحجم volume‏ 
"control‏ لتحديد مقدار هذه المنتجات التي يتم تصنيعها. يتم تنظيم عملية التعبير الجيني بعناية 
وتتغير بشكل ues‏ ظل ظروف مختلفة. تعمل منتجات RNA‏ والبروتين للعديد من الجينات على 
تنظيم التعبير عن الجينات الأخرى. 

ستغطي المقالة هذه كيفية تطبيق خوارزميات التعلم الآلي للتصنيف على مجموعة بيانات التعبير الجيني 
12118-56. بشكل ele‏ تعد هذه الأنواع من مجموعات البيانات متعددة الأبعاد وتحتوي على آلاف 
الأعمدة غير المسماة -unlabeled columns‏ بسبب هذا التطبيق المحدد للتعلم اللي ضروري لتطوير 
نماذج إنتاج عالية الأداء. سيتم توفير خطوات سير عمل التعلم الآلي المطلوبة باستخدام نماذج 
التصنيف الأكثر شيوعًا اليوم. ورقة البحث هذه هي استمرار لتطوير نماذج التعلم الآلي ونشرها لتحليل 
مجموعات البيانات الجينومية. أدناه هو الأحدث: 
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e‏ "تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم ". إرنست بونات» دكتوراه» بيش 
رياماجي. ماجستير. 03 فبراير 2021. 

"Flask Web Framework التعلم الآلى لعلم الجينوم باستخدام‎ (Qe "نشر الويب‎ e 
.2022 إرنست بونات. دكتوراه » 18 يونيو‎ 

e‏ "ناء نماذج مجموعات تعلم الآلة لبيانات RINA- Seq‏ للتعبير الجيني". إرنست بونات» 
دكتوراه . 28 ديسمير 2022. 


2. تحميل سريع لمجموعة بيانات التعبير الجيني RNA -Seq‏ 

في الورقة هذه سيتم استخدام مجموعة بيانات RINA-Seq‏ الخاصة بسرطان التعبير الجيني. هذه 
المجموعة من البيانات هي جزء من مجموعة بيانات طلس RNA-Seq (HiSeq) Pan-Cancer‏ 
Atlas‏ وهي عبارة عن استخراج عشوائي للتعبيرات الجينية للمرضى الذين يعانون من أنواع مختلفة 
من الأورام بمافي ذلك BR CA‏ - سرطان الثدي الغازيء KIRC‏ — سرطان الخلايا الكلوية الصافية 
COAD‏ — سرطان القولون الغدي. LUAD‏ — سرطان الغدة الرئوية PRAD;‏ 2 سرطان البروستاتا 
الغدي. يحتوي الملف الذي تم تنزيله TCGA-PANCAN-HiSeq-80120551.tar.gz‏ على 
ملفين CSV‏ . ملف data. csv‏ الذي يمثل الميزة GX‏ التعلم الآلي وملف lable.csv‏ الذي تمثل بيانات 
(التسمية) الهدف y‏ يوجد أدناه معلومات إطار بيانات مكتبة الباندا لكل منهم. Pandas‏ هي أداة تحليل 
ومعالجة بيانات مفتوحة المصدر سريعة وقوية ومرنة وسهلة الاستخدام. مبنية على قمة لغة برمجة 
.Python‏ 


-(data.csv (ملف‎ X لميزة‎ 


«class "pandas.core.frame.DataFrame'» 
RangeIndex: 801 entries, 0 to 800 

Columns LOS SN رفم دهت‎ Gene 10 te Gene 20530 
dtypes: float64(20531) 

memory usage: 125.5 MB 

None 


أثناء تطوير نموذج التعلم الآلي واختباراته. ستحتاج ملفات CSV‏ هذه إلى التحميل عدة مراتفي برنامج 
-Python IDE‏ بشكل cele‏ تبلغ المدة الزمنية لتحميل هذه الملفات حوالي 18-16 ثانية Gis)‏ 
لجهاز الكمبيوتر المحمول الخاص بي). سيؤدي هذا إلى زيادة كبيرةفي وقت التطوير للتنفيذ النهائي 
للنموذج الإجمالي. السؤال هو: كيف يمكن تسريع عملية تحميل البيانات؟ تتمثل إحدى الطرق السهلة 
في إجراء تسلسل serialize‏ للكائنات X‏ و y‏ مرة واحدة ثم إلغاء تسلسلها deserialize‏ عدة مرات.في 
المرة التالية التي تقوم فيها بتشغيل ملف «Python‏ ستحتاج إلى إلغاء تسلسل × و y‏ فقط حسب 
الحاجة. يمكن لتقنية تحميل ملفات Python CSV‏ أن تقلل من وقت التطوير حتى 2-1 ثانية لكل 
تنفيذ - فكرة ممتازة بنتيجة جيدة! يمكن إجراء تسلسل الكائن وإلغاء التسلسلفي Python‏ عن طريق 
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استيراد وحدات pickle‏ أو .joblib‏ أود أن أوصي كل مطور تعلم آلي بتنفيذ تقنية تحميل البيانات 
متعددة الأبعاد multi-dimensional data loading‏ السريعة إذا لزم الأمر. 


إليك كود PYDNA‏ لتسلسل وإلغاء تسلسل كائنات الباندا X‏ و y‏ 


# X feature:rna seq X path = os.path.join(rna seq pkl path, 
Enel SESE) 

PyDNA.pickle serialize object(rna seq X path, X) 

X = PyDNA.pickle deserialize object(rna seq X path)# y 
target:rna seq y path = os.path.join(rna seq pkl path, 

Aene SES VDE) 

BDA ترم م‎ EKE LE Seri ali ze CB )لتاقت‎ Ena SES y Bae, V) 

y= PyDNA.pickle deserialize object(rna seq y path) 


3. تحليل الفثة غير المتوازن لمجموعة بيانات التعبير الجيني RANA -Seq‏ 
تعد الفئة غير المتوازنة imbalanced class‏ للبيانات المستهدفةفي مجموعات بيانات الأعمال 
الحقيقية مشكلة شائعة جد اليوم. هناك العديد من الأوراق المكتوبة حول مسألة التصنيف المهمة هذه 
المطبقة على مشاريع التعلم الآلي. على سبيل المثال» تحتوي ورقة كيفية التعامل مع البيانات غير 
المتوازنة بايثون على معلومات ممتازة حول حلول بايثون لموازنة RA‏ غير المتوازنة المستهدفة. يحتوي 
المخطط الشريطي الموضح أدناه على فئة غير متوازنة لمجموعة البيانات الجينومية المختارة. 


Gene Expression Cancer RNA-Seq Dataset 
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Imbalanced Cancer Class 


بعد تطبيق خوارزمية تقنية الإفراطفي Ael‏ عينات الأقليات الاصطناعية (SMOTE)‏ تمت موازنة 
جميع الفئات ب 300 صف لكل منها o3 LS‏ المخطط الشريطي الأخير أدناه. 


Gene Expression Cancer RNA-Seq Dataset 
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تم تطبيق سطر las‏ من كود Python‏ للحصول على هذا المطلب. 

X train, y train - PyDNA.balance class smote(X train, y train) 
على مجموعة بيانات التعبير الجيني ل‎ (PCA) qui JI تطبيق تحليل المكون‎ 4 
RNA-Seq 
على 20531 عمودًا للتعبير الجيني. سنحتاج إلى تقليل‎ X كما نعلم بالفعل» يحتوي إطار بيانات ميزة‎ 
هذا العدد من الأعمدة بشكل كبير لتطبيق خوارزميات التعلم الآلي بشكل صحيح على مجموعة البيانات‎ 
هذه. الأسئلة الرئيسية هنا هي كيفية تحديد عدد الأعمدة التي يجب تقليلها؟ دعونا نلقي نظرة على حل‎ 
تقليل الميزات أولاً.‎ 
dimensional المعروف أيضًا باسم تقليل الأبعاد‎ Feature reduction تقليل الميزات‎ 
هو عملية تقليل عدد الميزاتفي الحسابات ثقيلة الموارد دون فقدان المعلومات المهمة.‎ creduction 
تقليل عدد الميزات يعني تقليل عدد المتغيرات مما يجعل عمل الكمبيوتر أسهل وأسرع. يمكن تقسيم‎ 
feature واستخراج الميزة‎ feature selection. تقليل الميزات إلى عمليتين: اختيار الميزة‎ 
هناك العديد من التقنيات التي يتم من خلالها تقليل الميزات. بعض من أكثرها شيوعًا‎ extraction 
والمشفرات التلقائية‎ .generalized discriminant analysis هي تحليل التمييز المعمم‎ 
A 5:non-negative matrix factorization ووعوامل المصفوفة غير السلبية‎ 35 
Gai هي الخوارزمية الأكثر‎ PCA PCA لتحليل المكونات الرئيسية‎ One-Stop Shop 
المستخدمة لتقليل الميزاتفي سير عمل مشاريع التعلم الآلي اليوم.‎ 


Count 


8 
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xay‏ ; تحتوي ) الورقة - شرح PCA‏ مفاهيم التباين باستخدام uis poss m‏ شرح جيد 
جد لهذه التقنية بمافي ذلك كود Python‏ أيضًا. 


من المخطط الشريطى cool‏ یمکننا أن نرى أن أخذ 8-7 مكونات رئيسية principal components‏ 
من 20531 عمودًا GS EM‏ لاستخدام أي خوارزميات "تعلم "UYI‏ للتصنيف classification‏ 
بالطبع» ستقرر قيم مقاييس التصنيف النهائية ما إذا كان هذا الاختيار صحيحًا أم لا. سيتم تقديم المزيد 
e tl‏ حول ها المرضوع يعد تليق كرا رميات "الله اللي ايت 

PCA Individual Explained Variance 


—— Cumulative Explained Variance 
Wm Individual Explained Variance 
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7 1 
MP,‏ —- 
في تجربتي» تعمل PCA‏ بشكل جيد للغاية بالنسبة لي مع العديد من مجموعات البيانات عالية الأبعاد. 
إليك كود Python‏ لحساب نسبة التباين الموضحة والمجموع التراكمي لقيم المتجهات الذاتية 
eigenvectors‏ لجميع المتجهات الذاتية. 


pca > PCA(n components-config.PCA N COMPONENTS COUNT, random state-100) 
X train, X valid, pca explained variance, cumulative sum eigenvalues - 
PyDNA.X train valid pca(pca, X train, X valid) 


5. تطبيق خوارزميات تصنيف التعلم الآلي على مجموعة بيانات التعبير الجيني ل 
RNA-Seq‏ 
مطلوب خطوات سير عمل التعلم الآلي الاثنتي عشرة التالية لتطبيق أي خوارزمية تصنيف تقليدية: 


.Data loading and object serialization تحميل البيانات وتسلسل الكائن‎ 
.Data object deserialization إلغاء تسلسل كائن البيانات‎ .2 
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. Target data flattening and encoding تسطيح البيانات الهدف وترميزها‎ 

البيانات مقسمة إلى تدريب training‏ )780( التحقق من الصحة validation‏ )710( 
واختبار test‏ )710( 

توازن بيانات تدريب ميزة Balance feature training data‏ إذا لزم الأمر. 


EN 


.Feature training data scaling تحجيم بيانات تدريب ميزة‎ 
Feature data PCA dimensional reduction . PCAà 44JI تقليل أبعاد بيانات‎ 
classification model development and «5; تطوير نموذج التصنيف‎ 


Xu O ü‏ من 


-optimization 
-Classification model fitting تطبيق نموذج التصنيف‎ .9 
-Model target prediction بنموذج الهدف‎ JI .10 
للتحقق من بيانات التحقق من الصحة‎ Classification metrics حساب مقاييس التصنيف‎ . 1 
والاختبار‎ 
Production model deployment and maintenance «bl; نشر نموذج الإنتاج‎ .2 
لمجموعة‎ SI يوضح الجدول أدناه نتائج تطبيق اثنتي عشرة خوارزمية تصنيف كلاسيكية للتعلم‎ 
البيانات المختارة لدينا. مقاييس إخراج التصنيف الرئيسية هي درجات دقة التحقق من الصحة والاختبار‎ 


. validation and test accuracy scores 


Classification Algorithm Validation Accuracy Score, | Test Accuracy Score, 
% % 
Logistic Regression 95.0 96.29 
Decision Tree 90.0 93.82 
Random Forest 97.50 97.53 
Support Vector Machine 93.75 96.29 
Multinomial Naive Bayes 95.0 95.62 
K-Nearest Neighbors 97.50 98.71 
| Multi-Layer Perceptron | V | 953 | 
Gradient Boosting 97.50 93.82 
Ada Boost 86.25 80.24 
Extreme Gradient Boosting 97.50 95.06 
Light Gradient Boosting Machine 98.75 98.76 
CatBoost 96.25 97.76 


الفائز هو آلة تعزيز التدرج الخفيف Light Gradient Boosting Machine (LightGBM)‏ 
بنسبة 98.76./ من درجات دقة اختبار التصنيف. Light GBM‏ هو إطار عمل مجاني ومفتوح المصدر 
لتعزيز التدرج الموزع للتعلم SU‏ تم تطويرهني الأصل بواسطة Microsoft‏ عام 2016. ويستند إلى 
خوارزميات شجرة القرار Decision Tree‏ ويستخدم للترتيب ranking‏ والتصنيف classification‏ 


3( تصنيف التعبير الجيني ل RNA-Seq‏ باستخدام خوارزميات التعلم الآلي 


ومهام التعلم AI‏ الأخرى. ينصب تركيز التطوير على الأداء performance‏ وقابلية التوسع 
.scalability‏ 


فيما يلي نتائج البرنامج لخوارزمية المصنف LightGBM‏ 


MODEL VALIDATIONvalid accuracy score: 

98.75valid precision: 

98.88valid recall: 

98.75valid f1 score: 

SE. JowceuLstel هتمعن كسمت‎ marerszsi loo 0 © i 
Lo 9 o Qo 0 
[0 ous o 0 
LO i o 19 0 


i~ 0 0 O 111 1 اس للم‎ CIOSSL ELE LON AIOE 2 precision 
recall fl-score support0.0 1- O0 100 00 
30 
O 059 1L c (QI) 0.94 8 
2 51 00 J1, 00 1-00 15 
S 00 0.95 0.96 14 
4.0 4L 1019; 3L. (09 dL 400 13accuracy 
(0)... 99] 80 
macro avg 0.98 ORO 0.98 80 
weighted avg 0. 99 099 0). 98 80MODEL TESTtest 


accuracy score: 
98.76test precision: 
98.84test recall: 
98.76test f1 score: 
قلا‎ 7652815 COME لطت هن‎ meetis lO O 0 0 0l 
Lo sS o o 0i 
LO 0 ta 3 dq 
Lo o o xA Ol 


[0 0 0 0 14]]test classification report: precision 
recall fl-score support0.0 100 dL 51010 1L «(0 
30 
dL o0 1L 210) 1L c (00) 1L 5 (010) 8 
200 00 ©, 93 omon 5 
Su (09S 00 (PSOE 14 
4.0 1.00 1.00 dL 5190 14accuracy 
0.99 81 
macro avg (0). 9) rc 9g 0 99 81 
weighted avg 0), 99 0. 9 099 81 


من الجيد الإشارة إلى مدى جودة عمل خوارزميات تعزيز التدرج gradient boosting algorithms‏ 
مع هذا النوع من مجموعات البيانات غير المصنفة -unlabeled dataset‏ توفر خوارزميات الغابة 
العشوائية Random Forest (RF)‏ وبيرسيبترون متعدد الطبقات Multi-Layer Perceptron‏ 
(MLP)‏ نتائج جيدة or‏ بنسبة دقة تبلغ 97.53/. هذه علامة جيدة جد OY‏ العديد من الشركات 
تستخدم RE‏ كخوارزمية رئيسية لمشروع التعلم الآلي. RE cus‏ أنه ينشئ نماذج انحدار وتصنيف 
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ممتازة مع العديد من مجموعات البيانات التجارية المختلفة للشركة. كانت نتيجة الاهتمام الأخرى هي 
خوارزمية K- Nearest Neighbours (KNN)‏ بدرجة ə‏ عالية بلغت 98.71/. هذه هي المرة 
الأولى التي رأيت فيها هذه النتيجة. من المنطقي تجربة KNN‏ بمجموعات بيانات مختلفة للتعبير 
الجيني.في ورقة مستقبلية أود معرفة مدى جودة خوارزميات التعلم العميق مع هذا النوع من مجموعات 
البيانات. يمكن أن يكون السؤال الرئيسي: هل يمكن أن يكون أداء CNN‏ أو LSTM‏ أفضل من 
LigthGBM‏ بنسبة 98.76/ من درجة دقة التصنيف؟ 


6. اختيار مكونات كمية PCA‏ باستخدام تباين درجات دقة التصنيف 

تعد درجة الدقة accuracy score‏ أحد المقاييس الرئيسية للتحقق من أداء نماذج التصنيف. من 
الواضح أنه $t‏ على تحليل PCA‏ وجدول نتائج خوارزميات التصنيف. فإن 8-7 مكونات رئيسية 
principal components‏ ستؤدي المهمة. هناك طريقة أخرى. لم أرها من قبل» وهي تصور كيف 
تختلف درجات التحقق من التحقق من الصحة والاختبار بناءً على كمية المكونات الرئيسية المختارة. 
يوضح الشكل أدناه كيف حصلت كلتا درجات الدقة على القيم القصوى واقتربت من ست مكونات 
رئيسية محددة. هذا دليل آخر على اختيارنا الصحيح المكون من 8-7 مكونات رئيسية. 


Classification Validation and Test Accuracy Scores 


100- ل‎ validation 


—— Test 


90 - 


Accuracy Score, 96 


60 - 
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يوجد أدناه كود Python‏ لحساب مقاييس تصنيف التحقق من الصحة validation classification‏ 
metrics‏ المطلوية. 


print("MODEL VALIDATION") 

aecouracyescoresvalue m precisqsongvalue FEecall value, f1 SeoEe Value, 
confusion matrix value, classification report value - 
PyDNA.calculate classification metrics(y val, y predicted) 

print ("valid accuracy score: WMní)Mn".format (accuracy score value)) 
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print ("valid precision: 5121752" . format (precision value) ( 
print("valid recalls DI DC ormai (recall value)) 
print("valid El score: 'Nn()in".format(fl score value)) 


( 
(um 
(um 
( 


print("valid confusion matrix: Nn(Nn".format(confusion matrix value)) 


print("valid classification report:Mn( 
\n". format (classification report value)) 


7. الاستنتاجات 


.1 


ستؤدي كائنات pandas‏ التي يتم تحميلها إلى التسلسل serialize‏ وإلغاء التسلسل 
dl deserialize‏ تسريع عملية تطوير نماذج التعلم LUI‏ وتحسينها 

zl‏ غير المتوازنة المستهدفة Target imbalanced class‏ هي مشكلة يجب حلها قبل 
تطبيق خوارزميات التعلم الآلي للتصنيف. يمكن أن يكون استخدام تقنية ÉK SMOTE‏ 
جيدا للبدء. 

سيكون تقليل الميزات Galho Feature reduction‏ لمجموعات بيانات التعبير الجيني 
متعدد الأبعاد. يمكن أن يكون PCA‏ هو الخيار الأمثل مع تحليل التباين الموضح الفردي 
والتصور. 

تضمن نماذج تعزيز التدرج التقليدية للتصنيف Traditional classification gradient.‏ 
boosting models‏ نتائج مقاييس جيدة مع مجموعة بيانات .Pan-Cancer Atlas‏ 
يمكن التحقق من صحة اختيار كمية المكون الرئيسي principal component quantity‏ 
وتصوره باستخدام اختلاف درجات دقة التصنيف. 

يوصى بشدة بتطبيق جميع خوارزميات تصنيف التعلم الآلي التقليدية والحديثة على أي 
مجموعة بيانات جينية ومعرفة النموذج الذي يوفر أفضل نتائج التنبؤ. 


المصدر: 


https://ernest-bonat.medium.com/rna-seq-gene-expression-classification- 


using-machine-learning-algorithms-de862e60bfdO 
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Machine Learning For Genomics تعلم الآلة لعلم الجينوم‎ (4 

(كيفية تحويل بيانات الجينوم لتناسب e 3Lo3‏ التعلم الآلي) 
أصبح التعلم الآلي Machine learning‏ شائعًا. ومع ذلك فهي ليست حالة استخدام شائعفي مجال 
المعلوماتية الحيوية Bioinformatics‏ والبيولوجيا الحاسوبية .Computational Biology‏ هناك 
عدد قليل جد من الأدوات التي تستخدم تقنيات التعلم الآلي. تم تطوير معظم الأدوات على رأس 
الأساليب والخوارزميات القطعية.في هذه المقالة سأقدم كيف يمكننا ترتيب بياناتنا بحيث يتم 
استخدامها بشكل فعالفي نموذج التعلم الآلي. 
مجالات التطبيق 
هناك العديد من السيناريوهاتفي علم الجينوم genomics‏ والتي قد نستخدم فيها التعلم الآلي. يمكن 
استخدام المجالات الرئيسية للتجميع Clustering‏ والتصنيف Classification‏ في علم الجينوم للقيام 
بمهام مختلفة. عدد قليل منهم على النحو التالي: 


(Unsupervised Learning التجميع (التعلم غير الخاضع للإشراف‎ e 
Binning of Metagenomics Contigs تجميع الكونتيجات الميتاجينومية‎ .1 
Identification of Plasmids and تحديد البلازميدات والكروموسومات‎ .2 
Chromosomes 
Clustering reads into jai الكروموسومات لتجميع‎ di التجميع‎ .3 
.chromosomes for better assembly 
Identification of Plasmids تجميع القراءات كمعالج أولي لتجميع القراءات‎ .4 
and Chromosomes 
(Supervised Learning التصنيف (التعلم الخاضع للإشراف‎ ه٠‎ 
«genus الجنس‎ .phylum (الشعبة‎ classes تصنيف التسلسلات الأقصر إلى فتات‎ .1 
إلخ)‎ «species الأنواع‎ 
Phylogenetic inference of the sequences للتسلسلات‎ | 5l; JI الاستدلال‎ 
Detection of Plasmids and الكشف عن البلازميدات والكروموسومات‎ 
Chromosomes 
Finding coding regions البحث عن مناطق الترميز‎ .4 
Chromosome prediction in التنبؤ بالكروموسومني الجينوميات البشرية‎ 


human genomics 
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يمكن أن تمتد القائمة إلى أبعد من ذلك بكثيرء على الرغم من أنني قمت بإدراج بعض المجالات التي 
كانت لدي خبرة فيها. 


تحويل البيانات واختيار النموذج 

من بين الخطوتين. التحول transformation‏ واختيار النموذج model selection‏ سأعتبر أن الأولى 

ذات أهمية أعلى. هذا لأنه بدون قاعدة صلبة لتمثيل البيانات» قد لا نحصل على أقصى استفادة من 

adl يرد يكل‎ od يكو‎ col ined Az, Ail قان المسضول عاق انات‎ als ومع‎ ic pa 

بشكل معقول حتى لو كان نموذجنا يبدو فقيرًا. یمکننا النظرني البيانات ضمن فتتين. 

البيانات المتسلسلة 

تشير البيانات المتسلسلة Sequential Data‏ إلى البيانات التي يتوافق فيها ترتيب البيانات التي يتم 

تغذيتها إلى النموذج مع الترتيب الفعلي للبياناتفي مجموعة البيانات. دعنا نلقي نظرة على المثال التالي. 
1. التنبؤ بمناطق ترميز البروتين Prediction of Protein Coding Regions‏ 


في هذا السيناريو« سننظرفيٍ قواعد النوكليوتيدات المتتالية consecutive nucleotide‏ 
65 وترتيبها. خلاف ذلك. لن يكون له معنى.في مثل هذا السيناريو, يمكننا تحويل البيانات 
إلى جمل تحتوي على كلمات متقطعة متتالية consecutive trimer words‏ 


Taxonomic Label Prediction التنبؤ بالتسمية التصنيفية‎ .2 


في هذا السيناريوه نحتاج إلى دقة أعلى حيث يمكن أن تكون ترددات قليل النوكليوتيد متشابهة 
جد بين الأنواع ولها تميز منخفض جد بين أنواع معينة. لذلك, سننظرفي eU]‏ جمل k-‏ 
mer‏ لقيم k‏ أعلى من 5 أو 7 كجمل. 
دعونا نتأمل المثال التالي. سأستخدم النوعين Pseudomonas aeruginosa (CP007224.1)‏ و 
Lactobacillus fermentum (AP008937.1)‏ لإثبات التحول إلى جمل كلمة k-mer‏ (أول 50 
قاعدة معروضة). 


Pseudomonas aeruginosa 

TTTAAAGAGACCGGCGATTCTAGTGAAATCGAACGGGCAGGTCAATTTCCLactobacillus 
fermentum 
TTGACTGAGCTCGATTCTCTTTGGGAAGCGATCCAAAATTCATTCCGTAA 


oM‏ يمكننا تحويل هذا إلى كلمات مقتطعة trimer words‏ لاظهار الناتج التالي. 


Pseudomonas aeruginosa 

TTT TTA TAA AAA AAG AGA GAG AGA GAC ACC CCG CGG GGC GCG CGA GAT ATT 

TTC TCT CTA TAG AGT GTG TGA GAA AAA AAT ATC TCG CGA GAA AAC ACG CGG 

GGG GGC GCA CAG AGG GGT GTC TCA CAA AAT ATT TTT TTC TCCLactobacillus 
fermentum 

WG MGA IGAC ACi GIG MEA CAG AOC CCU CIC MEE Cea Cadi JAIE OME ال‎ CIE 
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ANC ET TTD ITE TEC CEC CEA GAN Avec; AEC CEE CECA GAT ATE TEC EER CAR 
JAAA JAAVA AM AM MNE OMOEA OAL AME NCE MEC COE CON OMS BAS 


الآن بعد أن أصبح لدينا جمل من الكلمات. أصبحت المعالجة مشابهة لتلك الخاصة بتحليل المشاعر 
sentiment analysis‏ الفكرة الأساسية هى الحفاظ على طول الجملة. والذي يمكنك تحديده بناءً 
على متوسط طول التسلسلات. 


نموذج مناسب للبيانات المتسلسلة 

نظرًا oY‏ ترتيب k-mers‏ مهمني السيناريو أعلاه. يمكننا بسهولة استخدام الشبكة العصبية المتكررة 
Recurrent Neural Network (RNN)‏ أو نموذج الذاكرة طويلة قصيرة المدى Long Short‏ 
Term Memory model (LSTM)‏ . هذا بسبب قدرتهم على الحفاظ على ترتيب العناصر كعلاقة 


زمنيه. 
ومع «3s‏ السيناريو cel‏ يجب استخدام الترميز tokenization‏ متبوعا بطيقة تضمين الكلمة 
b .word embedding layer‏ كد من اختيار المشفرات encoders‏ والمميزات ġtokenizers‏ 


ملف (تسلسل (serialise‏ بحيث يكون لديك المشفر للتنبؤات AN‏ هنا kmer strings‏ ھی الجمل 
التى أنشأتها والفتات classes‏ هى التسمية المحددة. 


tokenizer = Tokenizer () 
tokenizer.fit on texts (kmer strings) 
vocab size > len(tokenizer.word index) * 1 


encoded docs = tokenizer.texts to sequences(kmer strings)binarizer = 
preprocessing.LabelBinarizer() 
labels encoded - binarizer.fit transform(classes) 


فيما يلي أحد النماذج التي استخدمتها لتصنيف التسلسل قبل بضعة أيام باستخدام Keras‏ 
Sequential API‏ أقوم بتضمين الكلماتفي 5 أبعاد من الأبعاد 32 الأولية (هناك 32 أداة تشذيب 
فريدة unique trimers‏ تدمج المكملات العكسية للخيط السفلى (lower strand‏ 

model = Sequential () 


model . add (Embedding (vocab size, 5)) 
model.add (Bidirectional (LSTM (5) ) ) 


( 
model.add(Dense(30, activation = 'relu')) 
model.add(Dropout(0.2)) 
model.add(Dense(20, activation = 'relu!')) 
model.add (Dropout (0.2) ) 
model.add (Dense (2, activation = 'softmax')) 


إذا كان تصنيفك متعدد التسميات «multi-label‏ فستحتاج إلى استخدام دالة التنشيط السيني 
Ya sigmoid‏ من دالة .softmax‏ 
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البيانات غير المرتبة 
بالنسبة للسيناريوهات التي يكون فيها الارتباط بين التسلسلات المتشابهة أكثر أهمية من قابلية التعرف 
الفريدة للتسلسلات, فإننا نميل إلى استخدام البيانات غير المرتبة .unordered data‏ وعادة ما يتم 
تمثيل هذهفي شكل متجهات تردد قليل النوكليوتيد -oligonucleotide frequency vectors‏ على 
سبيل المثال« تبدو الترددات المعيارية Pseudomonas J normalized frequencies‏ 
aeruginosa (CP007224.1)‏ و Lactobacillus fermentum (AP008937.1)‏ كما يلي. 


——- Pseudomonas aeruginosa 
\ — Lactobacillus fermentum 


o 


Fraction 


o 


يمكننا أن نرى أنهم يتبعون أنماطًا مختلفة GLS‏ لاحظ Ul‏ فقدنا الترتيب الفعلي لأدوات التشذيب 
trimers‏ ولكننا تركنا مع تمثيل لتحديد النوعين بشكل فريد. ومع ذلك عند 3 = k‏ من المحتمل جد 
أن تصادمات بين الاصناف وثيقة الصلة. 


الآن بعد أن رأيت البيانات» يمكنك استخدام نموذج مشابه لما يلي للقيام بالتصنيف. 


لاحظ أن بعد الإدخال الخاص بك سيزداد بقدرات 4 عند اتخاذ قرار بشأن k-mers‏ أطو 


= Sequential () 


Dense (30, activation 
Dropout (0.2)) 
Dense(20, activation 
Dropout (0.2)) 
Dense(2, activation 


TENN aspe. img (50:5) 


"rebut 


*sottmas t 


.compile(loss-'binary crossentropy', optimizer-'adam') 


علاوة على ذلك» سيستغرق حساب مثل هذه المتجهات الطويلة وقنًا طويلاً جدا. 
عدد قليل من الأدوات الموجودة 

الآن بعد أن رأيت كيف يمكن للمرء استخدام التسلسلات الجينية ذات الأطوال المتغيرةفي نموذج التعلم 
e‏ اسمحوا لي أن أعرض بعض الأدوات التي تفعل ذلك بالفعل. 


model 

model.add( 
model.add( 
model. add ( 
model. add ) 
model. add ) 
model 


ل لهذا الغرض. 
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.(PLOS . 2020 (تم النشر عام‎ PlasClass 


يستخدم الانحدار اللوجستي logistic regression‏ على متجهات 5 »» k-mer‏ لاكتشاف 
ما إذا كانت تنشأ من تسلسل بلازميد plasmid sequence‏ أو مقطع كروموسومي 
.chromosomal segment‏ هذه أداة قائمة على التصنيف binary ALI‏ 


.classification 
.(Nucleic Acid Research « 2018 (تم نشره عام‎ PlasFlow 


s‏ هذه الأداة بتصنيف مستوى الشعبة phylum level classification‏ وتتوقع ما إذاكان 
كونتيج Gona contig‏ هو بلازميد أو كروموسوم. يستخدم شبكة عصبية فوق متجهات تردد 


.k-mer 


(Bioinformatics « 2020 النشرء‎ e» MetaBCC-LR e 


يستخدم تضمين Stochastic Neighbor Embedding (t-SINE)‏ الموزع على شكل 
t‏ لتقليل القراءات الجينومية الطويلة لإجراء تجميع متجهات قاطعة للقراءات الميتاجينومية 


metagenomic reads’ trimer vectors 


هناك العديد من الأدواتني مجالات مختلفة من البحث بخلاف تلك القليلة )231( استخدمتها والثالثة 
التي قمت بتأليفها). تُستخدم 512/5.آفي التنبؤ الجيني وكشف منطقة الترميز region detection‏ 


المصدر: 


https://towardsdatascience.com/machine-learning-for-genomics- 
c02270251795 
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Explore المعلوماتية الحيوية باستخدام التعلم الآلي‎ Jle استكشاف‎ (5 
the world of Bioinformatics with Machine Learning 

تحتوي المقالة على مقدمة موجزة للمعلوماتية الحيوية Bioinformatics‏ وكيف يمكن استخدام 
خوارزمية تصنيف التعلم الا machine learning classification‏ لتصنيف نوع المت طانفي كل 
مريض من خلال تعبيراته الجينية gene expressions‏ 


المعلوماتية الحيوية Bioinformatics‏ هي مجال دراسة يستخدم الحساب لاستخراج المعرفة من 
البيانات البيولوجية biological data‏ وهو يشمل جمع البيانات وتخزينها واسترجاعها ومعالجتها 
ونمذجة البيانات لتحليلها أو تصورها أو التنبؤ بها من خلال تطوير الخوارزميات والبرامج. 


يمكننا اقتباسها بطريقة أبسط "تتعامل المعلوماتية الحيوية مع المناهج الحسابية والرياضية 
لفهم البيانات البيولوجية biological data‏ ومعالجتها". 


إنه مجال متعدد التخصصات يتم فيه تطوير طرق حسابية جديدة لتحليل البيانات البيولوجية وإجراء 
اكتشافات بيولوجية. على سبيل المثال» هناك مهمتان نموذجيتانفي ele‏ الوراثة genetics‏ وعلم الجينوم 
Ls genomics‏ عمليات التسلسل sequencing‏ والتعليق التوضيحي annotating‏ لمجموعة كاملة 
من الحمض النووي DNA‏ للكائن الحي. في علوم الأعصاب «neurosciences‏ تستخدم تقنيات 
التصوير العصبي neuroimaging techniques‏ مثل التصوير المقطعي المحوسب 
computerized tomography (CT)‏ والتصوير المقطعي بالإصدار البوزيتروني positron‏ 
emission tomography (PET)‏ والتصوير بالرنين المغناطيسي الوظيفي functional‏ 
«magnetic resonance imaging (MRI)‏ والتصوير الموتر للانتشار diffusion tensor‏ 
imaging (DTI)‏ لدراسة الأدمغةني الجسم الحي وفهم الأعمال الداخلية من الجهاز العصبي. 


يفتح تطبيق التعلم Machine Learning AVI‏ على البيانات البيولوجية والتصوير العصبي 
GLT neuroimaging data‏ جديدة للهندسة الطبية الحيوية :biomedical engineering‏ تحسين 
فهمنا للأمراض المعقدة مثل السرطان أو الاضطرابات العصبية التنكسية والنفسية. يمكن أن يؤدي 
التقدمفي هذا المجالفي النهاية إلى تطوير أدوات التشخيص SI‏ والطب الدقيقء والذي يتكون من 
استهداف العلاجات الطبية المخصصة مع مراعاة التباين الفردي ونمط الحياة والبيئة. 


قبل ظهور خوارزميات التعلم الآلي كان لابد من برمجة خوارزميات المعلوماتية الحيوية يدويًا بشكل 
صريح والتي ثبت أنها صعبة للغاية بالنسبة لمشاكل مثل التنبؤ ببنية البروتين protein structure.‏ 


.prediction 
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تمكن تقنيات التعلم JY‏ مثل التعلم العميق deep learning‏ الخوارزمية من الاستفادة من التعلم 
التلقائى للميزات automatic feature learning‏ مما يعنى أنه sU‏ على مجموعة البيانات وحدهاء 
کی ial‏ أن ol cod adea cole qu i ult‏ متجبرعة ا e‏ مين 
الميزات التي يمكن من خلالها إجراء مزيد من التعلم. يسمح هذا النهج متعدد الطبقات لأنماط التعلم 
فى بيانات الإدخال لمثل هذه الأنظمة بعمل تنبؤات معقدة للغاية عند تدريبها على مجموعات البيانات 
الكبيرة.في السنوات الأخيرة» ارتفع حجم وعدد مجموعات البيانات البيولوجية المتاحة بشكل c‏ مما 
مكن باحثي المعلوماتية الحيوية من الاستفادة من خوارزميات التعلم JY‏ هذه. 

تم تطبيق التعلم الآلي على ست مجالات بيولوجية: علم الجينوم «Genomics‏ وعلم البروتينات 
«Proteomics‏ والمصفوفات الدقيقة Microarrays‏ وبيولوجيا الأنظمة «Systems biology‏ 
وتشخيص السكتات الدماغية Stroke diagnosis‏ والتنقيبفي النص -Text mining‏ 


علم الجينوم 

aj‏ مجال متعدد التخصصاتفي علم الأحياء يركز على هيكل structure‏ ووظيفة function‏ وتطور 
2 وتعيين mapping‏ وتحرير editing‏ الجينوم genomes‏ الجينوم هو مجموعة كاملة من 
الحمض النووي DNA‏ للكائن الحي» بماني ذلك جميع جيناته. هناك حاجة متزايدة لتطوير أنظمة 
التعلم al‏ التي يمكن أن تحدد GU‏ موقع الجينات المشفرة للبروتين protein-encoding genes‏ 
ضمن تسلسل DNA‏ معين وتعرف هذه المشكلةفي علم الأحياء الحسابي computational‏ 
biology‏ بالتنبؤ الجيني .gene prediction‏ لمعرفة المزيد عن علم الجينوم انقر هنا. 


What is a genome? 


Human cell 


Most cells in the human 
body have a complete 
set of genes 


Your genome is one whole set of all your 
genes plus all the DNA between your genes. 
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علم البروتينات 
علم البروتينات Proteomics‏ هو دراسة واسعة النطاق للبروتينات .proteomes‏ البروتين 


proteome‏ هو مجموعة من البروتينات يتم إنتاجهاني كائن حي أو نظام أو سياق بيولوجي. 


تكتسب البروتينات» وهي سلاسل من الأحماض الأمينية camino acids‏ الكثير من وظيفتها من طي 
البروتين protein folding‏ حيث تتوافق مع L3‏ ثلاثية الأبعاد. يتكون هذا الهيكل من عدد من طبقات 
dos « Jai‏ ذلك LAI‏ الأساسية primary structure‏ (أي السلسلة المسطحة للأحماض الأمينية flat‏ 
«(string of amino acids‏ والبنية الثانوية secondary structure‏ (حلزونات alpha helices WÍ‏ 
وصفائح بيتا «(beta sheets‏ والبنية الثلاثية «tertiary structure‏ والهيكل الربعي quarternary‏ 


.Structure 


يعد التنبؤ بالبنية الثانوية للبروتين Protein secondary structure prediction‏ هو المحور الرئيسي 
لهذا الحقل الفرعي حيث يتم تحديد طيات البروتين 10101585 protein‏ الإضافية (البنى الثلاثية 
والرباعية £C, (tertiary and quaternary structures‏ على البنية الثانوية. يعد حل LI‏ الحقيقية 
also iae oa‏ و a Do b C)‏ يزه من i ges! Lesen, dali dl‏ 
e‏ البروتين عن طريق تحليل تسلسل الأحماض الأمينية مباشرة. قبل التعلم SY‏ كان الباحثون بحاجة 
إلى إجراء هذا التنبق يدويًا. 

تستخدم الحالة الحاليةفي التنبؤ بالهيكل الثانوي نظامًا يسمى DeepCINF‏ (الحقول العصبية التلافيفية 
العميقة (deep convolutional neural fields‏ الذي يعتمد على نموذج التعلم الالي للشيكات 
العصبية الاصطناعية لتحقيق دقة تقارب 784 عند تكليفه بتصنيف الأحماض الأمينية من تسلسل 
البروتين إلى واحدة من ثلاث فتات هيكلية (حلزون c helix‏ صفيحة sheet‏ أو ملف (coil‏ 


المصفوفات الدقيقة 

تستخدم المصفوفات الدقيقة Microarrays‏ وهي نوع من المعامل على رقاقة Jab-on-a-chip‏ 
لتجميع البيانات UE‏ حول كميات كبيرة من المواد البيولوجية. يمكن أن يساعد التعلم UI‏ تحليل 
هذه البيانات» وقد تم تطبيقه لتحديد نمط التعبير expression pattern‏ والتصنيف «classification‏ 
وتحريض الشبكة الجينية genetic network induction‏ 


هذه التقنية مفيدة بشكل خاص لرصد تعبير الجينات داخل الجينوم» مما يساعدفي تشخيص أنواع 
مختلفة من السرطان Fey‏ على الجينات التي يتم التعبير عنها. تتمثل إحدى المشكلات الرئيسيةفي هذا 
المجالفي تحديد الجينات التي يتم التعبير عنها F‏ على البيانات التي تم جمعها. 
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Cancer Colls Normal Colla 


Combine Targets 


Hybridize to 
Microarray 


يقدم التعلم الآلي حلاً محتملاً لهذه المشكلة حيث يمكن استخدام طرق تصنيف مختلفة لإجراء هذا 
التعريف. الطرق الأكثر شيوعًا هى شبكات وظائف الأساس الشعاعى radial basis function‏ 
«networks‏ والتعلم العميق «deep learning‏ وتصنيف بايزي «Bayesian classification‏ وأشجار 
القرار «decision trees‏ والغابات العشوائية .random forest‏ 


بيولوجيا الأنظمة 

يركز بيولوجيا الأنظمة Systems biology‏ على دراسة السلوكيات الناشئة من التفاعلات المعقدة 
للمكونات البيولوجية البسيطةفي النظام. يمكن أن تشتمل هذه المكونات على جزيئات DNA ,J‏ 
RNA;‏ والبروتينات proteins‏ والمستقلبات metabolites‏ 
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NEW INSIGHTS 


NEW 
HYPOTHESES 


BIOLOGY 


NEW 
BIOLOGICAL 
QUESTIONS 


TECHNOLOGY 


NEW TECHNOLOGIES 


say 


COMPUTATION E. ] 
5 
T" 


NEW 
SOFTWARE 


© Institute for DATA 
Systems Biology 


تم استخدام التعلم SY‏ للمساعدةفي نمذجة هذه التفاعلات المعقدةفي الأنظمة البيولوجيةني مجالات 
مثل الشبكات الجينية genetic networks‏ وشبكات نقل الإشارات signal transduction.‏ 
15 والمسارات الأيضية .metabolic pathways‏ تعد النماذج الرسومية الاحتمالية 
«Probabilistic graphical models‏ وهي تقنية تعلم آلي لتحديد البنية بين المتغيرات المختلفة. 
واحدة من أكثر الطرق شيوعًا لنمذجة الشبكات الجينية. بالإضافة إلى ذلك تم تطبيق التعلم الآلي على 
مشاكل بيولوجيا الأنظمة مثل تحديد مواقع ربط عامل النسخ transcription factor binding sites‏ 
باستخدام تقنية تحرف باسم تحسين سلسلة ماركوف Markov chain optimization‏ . تم استخدام 
الخوارزميات الجينية «Genetic algorithms‏ وتقنيات التعلم الآلي التي تستند إلى عملية التطور 
الطبيعية» لنمذجة الشبكاث الجينية والهياكل التنظيمية. 


تشخيص السكتة الدماغية 

تستخدم طرق التعلم الآلي لتحليل بيانات التصوير العصبي للمساعدةفي تشخيص السكتة الدماغية. 
Ou‏ ما يتم استخدام أساليب الشبكة العصبية التلافيفية ثلاثية الأبعاد Three-dimensional‏ 
Convolutional Neural Network (CNN)‏ وآلة المتجهات الداعمة ) Support Vector‏ 
.Machines (SVM)‏ 


التنقيب في النصوص 

ital coal‏ اترات ار dal‏ إلى il) aad‏ س المت من queis De‏ جيم 
المعلومات المتاحة ذات الصلة حول موضوع معين عبر جميع المصادر. تُعرف هذه المهمة باسم 
استخراج المعرفة .knowledge extraction‏ يعد هذا ضروريًا لجمع البيانات البيولوجية والتي يمكن 
بدورها إدخالهاني خوارزميات التعلم الآلي لتوليد معرفة بيولوجية جديدة. يمكن استخدام التعلم الآلي 
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لمهمة استخراج المعرفة هذه باستخدام تقنيات مثل معالجة اللغة الطبيعية Natural Language‏ 
Processing (NLP)‏ لاستخراج معلومات مفيدة من التقارير التى ينشئها الإنسانفيٍ قاعدة بيانات. 


uod t عله‎ Ces يك‎ ddr دؤائية‎ cabal عن‎ cdi ule هذه التقية‎ Gus us 
المعلومات المخزنةفي قواعد البيانات والمجلات البيولوجية. غالبًا لا تعكس التعليقات التوضيحية‎ 
في قواعد بيانات البروتين المجموعة الكاملة المعروفة للمعرفة‎ 411104264015 of proteins للبروتينات‎ 
لكل بروتين» لذلك يجب استخراج معلومات إضافية من الأدبيات الطبية الحيوية. تم تطبيق التعلم الآلي‎ 
وتحديد‎ «US, Jis لوظيفة الجينات‎ automatic annotation على التعليق التوضيحي التلقائي‎ 
للبروتين» وتحليل صفائف تعبير الحمض النووي‎ subcellular localization التوطين الخلوي‎ 
large-scale واسع‎ Ua وتحليل تفاعل البروتين على‎ analysis of DNA-expression arrays 

molecule interaction analysis وتحليل تفاعل الجزيء‎ «protein interaction analysis 


يتيح لنا الآن تنفيذ خوارزمية (SVM)‏ مجموعة بيانات المعلوماتية الحيوية ومعرفة كيفية عملها. 


التصنيف الجزيثي للسرطان عن طريق مراقبة التعبير الجيني باستخدام (SVM)‏ 
على الرغم من تحسن تصنيف السرطان خلال الثلاثين Ole‏ الماضيةء لم يكن هناك نهج عام لتحديد 
فتات السرطان الجديدة (اكتشاف (class discovery 4al‏ أو لتخصيص الأورام tumors‏ لفتات 
معروفة (التنبؤ بالفئة JG «(class prediction‏ مجموعة البيانات من دراسة إثبات المفهوم التي نُشرت 
في 1999 من قبل .Golub et al‏ لقد أظهر كيف يمكن تصنيف حالات السرطان الجديدة عن طريق 
مراقبة التعبير الجيني gene expression monitoring‏ (عبر مصفوفة الحمض النووي الدقيقة 
(DNA microarray‏ وبالتالي قدم نهجًا Úle‏ لتحديد فتات السرطان الجديدة وتخصيص الأورام 
cola)‏ معروفة. 


الهدف هو تصنيف المرضى الذين يعانون من سرطان الدم النخاعي الحاد acute myeloid‏ 
leukemia (AML)‏ وسرطان mu‏ الليمفاوي الحاد lymphoblastic leukemia (ALL)‏ 
باستخدام خوارزمية SVM‏ 


يمكن تنزيل مجموعة البيانات من .Kaggle‏ 
لنبدأ البرمجة: 
ابدأ بتحميل 3 مكتبات أساسية للبايثون: 


import pandas as pd 
import numpy as np 
impone MAE DLS LTO 12ت لات يون‎ cus BEE 


5( استكشاف عالم المعلوماتية الحيوية باستخدام التعلم الآلي 


Datla =‏ متسس 

PDA. Ee CSUN. 2665551602 2 cioes/datases etes 
HESE Data > 

pd.read csv("/.../bioinformatics/data set ALL AML independent.csv") 
labels = pd.read csv("/.../bioinformatics/actual.csv", index col = 
'patient')Train Data.head() 


SOAM assets 


Gene 
Gene Description Accession 1 call 2 calli 3 call.2 4 call3 .. 29 3 30 call.34 31 call.35 32 call.36 33 call37 
Number 
AFFX-BIoB-5 at 
0 (endogenous AFXBDB وبي‎ A .139 A -76 A 15 A. 15 A -318 A 2 A -124 A -135 A 
control) E 
AFFX-BioB-M at * 
1 (endogenous  AFXBiB 153 A و7‎ A وم‎ A -M4 A . 114 A -192 A -49 A -79 A -186 A 
Mat 
control) 
AFFX-BioB-3 at 
2 (endogenous AFXBDB وي‎ A 41 A 407 A 25 A.n 2 A -95 A 49 AR A -70 A 
control) yá 
AFFX-BioC-5 at 
3 (endogenous FXO ge A 283 A 30 A 12 A . 193 A 312 A 230 P 330 A 337 A 
control) 0 
AFFX-BioC-3 at 
4 (endogenous — ^FPXBoC  .295 A .264 A 376 A 49 An 51 A -139 A -367 A -188 A -407 A 
control) z 


ESE Daea Read) 


Gene 
Gene Description Accession 39 call 40 call.1 42 call.2 47 cal3 .. 65 call.29 66 call.30 63 call.31 64 32 62 call33 
Number 
AFFX-BioB-5 at 
0 (endogenous — ^FPX8OB 342 A جه‎ A 22 A 23 A -62 A -58 A -161 A -48 A -176 A 
control) z 
AFFX-BioB-M_at 
1 (endogenous ATX .200 A -248 A -153 A 28 A .. -198 A -217 A -215 A -531 A -284 A 
Lat 
control) 
AFFX-BIoB-3 at 
2 (endogenous — ^FPXB. 4) A 262 A 17 A 463 AM م‎ A 63 A -46 A -124 A -81 A 
|at 
control) 
AFFX-BioC-5 at Tum 
3 (endogenous ATX ووو‎ A 295 A 276 A 182 A . 14 A 95 A 146 A 431 A 9 A 
control) = 
AFFX-BioC-3 at : 
4 (endogenous TXB ووو‎ A .226 A 21 A -289 A .. -256 A 191 A -172 A -496 A -294 A 
control) zx 


o‏ العمودان1 25 عبارة عن أوصاف حول هذا الجين. 

abel data كل عمود مرقم هو مريض في بيانات التسمية‎ ٠ 

e‏ لكل مريض 7129 قيمة تعبير جيني gene expression values‏ — أي لكل مريض قيمة 
واحدة لكل جين. 

.38 تحتوي بيانات التدريب على قيم التعبير الجيني للمرضى من 1 إلى‎ o 

.72 تحتوي بيانات الاختبار على قيم التعبير الجيني للمرضى من 39 إلى‎ ٠ 
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تحقق الآن من القيم الخاليةفي مجموعتي البيانات (ليس لدينا أي قيم خاليةفي مجموعات البيانات 
هذه). 


print(Train Data.isna().sum().max()) 
print(Test Data.isna().sum().max()) 


Cols = [eol zor col in Megre Dece Columns tr VeculiY Ane CoL 
Test = Mese Dara Coo leals, 1) 

cols Icel oO لوت‎ aug. Wel Deren EAlwins abt ey im Coll 
rain = Ean Derce Crop مفطاهت)‎ 1) 


انضم الآن إلى جميع مجموعات البيانات وقم بتبديل البيانات النهائية المرتبطة. 


patientsi= SEE) EOF 1 an range l 37 D 
Ohr eall = poh eomer (traim, testil, axis = 111 parcicnts] 
ch All = (he LIL a 


Il 


0 1 2 3 4 5 6 7 8 9 .. 7119 7120 7121 7122 7123 7124 7125 7126 7127 7128 
1 -214 -153 -58 88 -295 -558 199 -176 252 206 .. 185 511 -125 389 -37 793 39 36 191 -37 
2 -139 -73 -1 283 -264 -400 -330 -168 101 74 .. 169 837 -36 442 -17 782 295 11 76 -14 
3 -76 -49 -307 309 -376 -650 33 -367 206 -215 .. 315 1199 33 168 52 1138 777 41 228 -41 
4 -135 -114 265 12 -419 -585 158 -253 49 31 .. 240 835 218 174 -110 627 170 -50 126 -91 
5 -106 -125 -76 168 -230 -284 4 -122 70 252 .. 156 649 57 504 -26 250 314 14 56 -25 


5 rows x 7129 columns 
بعد التحويل» تم تحويل الصفوف إلى أعمدة )7129 عمود | معلم)‎ 
dummy إلى قيمة رقمية وإنشاء متغيرات وهمية‎ "patient! الآن قم بتحويل عمود المريض‎ 
نظرًا لأن "السرطان‎ (numeric values رقمية‎ e إلى‎ categories (تحويل الفئات‎ variables 
(AML ALL) OUS هو عمود فتوي به‎ " cancer 


dE eub ]" parien ae PA. EO 16121 ) 829222255 
Labels ll i eanmeerilEodsgeudummiesimcetmalieamcermm Croo ism etes ure) 


اربط الآن إطارات البيانات d£. all‏ والتسمياتفي عمود المريض. 


Deta > PA Merge (dE cubi. labels, كت تم‎ 
Data.head() 


0 1 2 3 4 5 6 7 8 9 .. 7121 7122 7123 7124 7125 7126 7127 7128 patient cancer 


0 -214 -153 -58 88 -295 -558 199 -176 252 206 .. -125 389 -37 793 329 36 191 -37 1 0 
1 -139 -73 -1 283 -264 -400 -330 -168 101 74 .. -36 442 -17 782 295 11 76 -14 2 0 
2 -76 -49 -307 309 -376 -650 33 -367 206 -215 .. 33 168 52 1138 777 41 228 1 3 0 
3 -135 -114 265 12 -419 -585 158 -253 49 31 ... 218 174 -110 627 170 -50 126 -91 4 0 
4 -106 -125 -76 168 -230 -284 4 -122 70 252 .. 57 504 -26 250 314 14 56 -25 5 0 


خطوتنا التالية هي إنشاء متغيرين X‏ (مصفوفة المتغيرات المستقلة (independent variables‏ و y‏ 
(متجه المتغير التابع -(dependent variable‏ 


5) استكشاف عالم المعلوماتية الحيوية باستخدام التعلم الآلي 


X, y 7 Data.drop(columns-["cancer"]), Data["cancer"] 


بعد ذلك» قمنا بتقسيم 175 من البيانات إلى مجموعة تدريب بينما يتم اختبار 725 من البيانات. 
المتغير test size‏ هو المكان الذي نحدد فيه بالفعل نسبة مجموعة الاختبار. 


from sklearn.model selection import train test split 
X لوطع‎ 3€ CSS, y Crain, y Cest = train des SONIC MCSE Suzie 
= 0:20; awon state= 0) 


الخطوة التالية هي تسوية normalize‏ البيانات لأننا إذا نظرنا عن كثب إلى البيانات» فإن نطاق قيم 
المتغيرات المستقلة يختلف كثيرًا. لذلك عندما تختلف القيم كثيرًاني المتغيرات المستقلة» فإننا نستخدم 
تحجيم الميزة feature scaling‏ بحيث تظل جميع القيمفي النطاق القابل للمقارنة. 


from sklearn.preprocessing import StandardScaler 
الوه‎ EStandasdsocastezq 

X erain = gE ELE EEA EET) 

X TeSt = 9G A o EEANST OEMS TOSE) 


عدد الأعمدة / الميزات التي كنا نعمل معها ضخم. لدينا 72 Ġo‏ و 7129 عمودًا. نحتاج GU‏ إلى 
تقليل عدد الميزات (تقليل الابعاد (Dimentioanlity Reduction‏ لإزالة إمكانية لعنة الأبعاد 


. Curse of Dimensionality 


لتقليل عدد الأبعاد / الميزات» سنستخدم خوارزمية تقليل الأبعاد الأكثر شيوعاء مثل PCA‏ (تحليل 
المكون الرئيسي Principal Component Analysis‏ 


لإجراء PCA‏ يتعين Ue‏ اختيار عدد الميزات / الأبعاد التي نريدهافي بياناتنا. 


from sklearn.decomposition import PCA 
وعم‎ = PCA() 
X EERO poasit CEASE OE CEG) 
X test = pca.transform(X test) 
total-sum(pca.explained variance ) 
k-0 
current variance-0 
while current variance/total « 0.90: 
current variance = pca.explained variance [k] 


k=k+1 
.) = 38 يعطي الكود أعلاه‎ 
على متغيراتنا المستقلة.‎ PCA ونطبق‎ k = 38 دعونا نأخذ‎ oM 


from sklearn.decomposition import PCA 

Bea = PCA(n components = 38) 

X train = pca.fit transform(X train) 

X test —cpcastransform(X TeSt CUM SUM = 
pca.explained variance ratio .cumsum() 

cum sum — cum sum*100 

plt.bar(range(38), cum sum) 
plt.ylabel("Cumulative Explained Variance") 
plt.xlabel("Principal Components") 
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plt.title("Around 90% of variance is explained by the First 8 
columns 2) 


Text(0.5, 1.0, 'Around 90$ of variance is explained by the First 38 columns ') 


Around 9096 of variance is explained by the First 38 columns 


Cumulative Explained Variance 
8 8 
۴ 2 


& 


N 
ò 
" 


10 15 20 25 30 35 
Principal Components 


ملاحظة: يمكن أن يؤدي PCA‏ إلى انخفاضفي أداء النموذجني مجموعات البيانات مع عدم وجود 
correlation bU jl‏ بين الميزات أو انخفاضها أو عدم تلبية افتراضات الخطية linearity‏ 


تتمثل الخطوة JUJI‏ 34( ملاءمة بياناتنافي خوارزمية Support Vector Machine (SVM)‏ ولكن قبل 
القيام Hi‏ سنقوم بتحسين المعلمات الفائقة -Hyperparameter‏ 


تحسين أو ضبط المعلمات الفائقة Hyperparameter optimization or tuning‏ هي مشكلة 
اختيار مجموعة من المعلمات الفائقة المثلى لخوارزمية التعلم. المعلمة الفائقة هي معلمة تستخدم 
قيمتها للتحكمفي عملية التعلم. على النقيض من ذلكء يتم تعلم قيم المعلمات الأخرى. 

سنستخدم GridSearchCV‏ من sklearn‏ لاختيار أفضل المعلمات الفائقة. 


from sklearn.model selection import GridSearchCV 
from sklearn.svm import SVCparameters = [('C': [1, 10, 100, 1000], 
'kernel': ['linear']], 

NENE U, DO, TOO, OO ener PE qmd s 
[Os be OZ CY rs dt. DS, O, OU Qs UO ESSIEN = 
GridSearcheCV(SVC(), parameters, n jobs--1, 22 
Sese E EC Ereim, y Traim) 


تحقق الآن من أفضل المعلمات لخوارزمية SVM‏ الخاصة بنا. 


best parameters = search.best estimator 


SVC(C-1, cache size-200, class weight-None, coef0-0.0, 
decision function shape-'ovr', degree-3, gamma-'auto deprecated', 
kernel-'linear', max iter--1, probability-False, random state-None, 
shrinking-True, tol-0.001, verbose-False) 


الآن Ue»‏ ندرب نموذج تصنيف SVM‏ الخاص بنا. 


medel = SVE (CS, Cache siz2e=200; elass vercht= one, EOC OO 


E‏ 5( استكشاف عالم المعلوماتية الحيوية باستخدام التعلم الآلي 


deci Sion 2022621 OM 2ه 2ك‎ OME 7 degEee= m 
gamma-'auto deprecated', 

erme lm lime masse Mero als relse, 
random state-None, 

shrinking-True, tol-0.001, verbose-False) 


model.fit(X train, y train) 
حان الوقت لبعض التوقعات:‎ 
y pred-model.predict(X test) 
تقييم أداء النموذج:‎ 


from sklearn.metrics import accuracy score, confusion matrixfrom 
Sklearn import metrics 

prn AcencacyEscoredesouncllaccouradcymscore vase Stt S OTe 2h) 
#confusion matrix 

cm > confusion matrix(y test, y pred) 

Output: 

Aceuracy Scores O. 01 


مصفوفة الارتباك Confusion matrix‏ وتصورها باستخدام خريطة الحرارة .Heatmap‏ 


elas sl nemes= i23] 

fig, ax - plt.subplots()from sklearn.metrics import 
confusion matrix 

import seaborn as snscm = confusion matrix(y test, 
ycpred)ctassonames-[ ATE", VAME!] 

itae]. ex = Tobi suga lors) 

tick marks - np.arange(len(class names)) 
|[t.xticks(tick marks, class names) 

Mes yeieks (erek marka, Class menes) 
S.heatmap(pd.DataFrame(cm), annot-True, cmap="viridis" ,fmt='g') 
.xaxis.set label position("top") 

.tight layout () 

EEE e onus Tonmemaltmd yb 
.ylabel('Actual label!) 

.xXlabel('Predicted label') 


o "rol 'rej ol ال للم‎ "ro) ro] 
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حستاء يوضح هذا المثال أنه إذا توقعت للتو أن كل مريض مصاب بمرض (AML)‏ فستكون على 
صواب أكثر من الخطأ. 

لذلك توقع نموذج تصنيف SVM‏ مرضى السرطان بدقة 67 وهو بالطبع ليس جيدا. ما يمكنك القيام 
به هو تجربة مصنفات مختلفة مثل Random Forest‏ و K- NN‏ و Gradient Boosting‏ و 
xgboost‏ وما إلى ذلك ومقارنة الدقة لكل نموذج. 


الاستنتاج 
لذلكني هذه المقالةء رأينا كيف يمكن استخدام خوارزمية تصنيف التعلم الآلي للتنبؤ بالسرطان لدى 
المريض. 

في النهاية» أعتقد أن التعلم الآلي سوف يزدهر d‏ فسوف يتحول إلى بيانات معلوماتية حيوية أفضل. 
تتمتع بيانات الصحة والمعلوماتية الحيويةفي الوقت الحالي بقدرة إحصائية ضعيفة au‏ إما أنها عادة 
ما تكون col‏ إشارة ضعيفة (علم الجينوم)ء أو ضوضاء ©2015/ تحيز bias‏ مرتفعة(السجلات الصحية 
الإلكترونية)ء أو أحجام عينات صغيرة. 


المصدر 


https://www.kdnuggets.com/2019/09/explore-world-bioinformatics- 


machine-learning.html 


6) تحليل جينوم فيروس كورونا COVID-19‏ باستخدام Biopython‏ 


6( تحليل جينوم فيروس كورونا COVID-19‏ باستخدام Biopython‏ 
Coronavirus COVID- 19 Genome Analysis using Biopython‏ 
لذلكني هذه المقالة» سوف نفسر ونحلل بيانات تسلسل الحمض النووي DNA‏ ل COVID-19‏ 
ونحاول الحصول على العديد من الأفكار المتعلقة بالبروتينات التي تتكون منها. سنقارن iN‏ الحمض 
النووي ل COVID-19‏ بمتلازمة الشرق الأوسط التنفسية MERS‏ والسارس SARS‏ وسنفهم 
العلاقة بينهما. 


R للضيعة العاية‎ imp اشجارات‎ (SARS-CoV-2) الق اتاد ال ح2‎ da ja 
تحديدهفي أواخر ديسمير 2019 الصين.‎ e ol والاقتصاد منڏ‎ 


فيروسات كورونا Coronaviruses‏ هي عائلة كبيرة من الفيروسات التي يمكن أن تسبب أمراضًا تتراوح 
شدتها على نطاق واسع. ظهر أول مرض خطير معروف ناجم عن فيروس كورونا مع وباء المتلازمة 
التنفسية الحادة الوخيمة (سارس) Severe Acute Respiratory Syndrome (SARS)‏ عام 
32003( الصين. نشأت الفاشية الثانية للمرض الحادفي عام 32012 المملكة العربية السعودية مع 
متلازمة الشرق الأو سط التنفسية (ميرس) .Middle East Respiratory Syndrome (MERS)‏ 
والآن التفشي المستمر ل -COVID-19‏ 

"من خلال مقارنة بيانات تسلسل الجينوم المتاحة لسلالات فيروس كورونا المعروفة» يمكننا أن نقرر 
بحزم أن COVID-19‏ نشا من خلال العمليات الطبيعية". كما قال کریستیان أندرسنء دكتوراه. أستاذ 
مشاركفي علم المناعة وعلم الأحياء المجهريةني أبحاث Scripps‏ والمؤلف المقابلفي الورقة. 


لذلكني هذه المقالة سوف نفسر ونحلل بيانات تسلسل الحمض النووي DNA‏ ل 057110-19 © 
ونحاول الحصول على العديد من الأفكار المتعلقة بالبروتينات التي تتكون منها. سنقارن M‏ الحمض 
النووي ل COVID-19‏ بمتلازمة الشرق الأوسط التنفسية MERS‏ والسارس SARS‏ وسنفهم 
العلاقة بينهما. 

إذا كنت جديداني علم الجينوم» فإنني أوصيك بضرورة مراجعة المقالة إزالة الغموض عن تسلسل 
الحمض النووي باستخدام التعلم الآلي و Python‏ قبل المضي قدمًا للحصول على فهم أساسي لتحليل 
بيانات الحمض النووي. 
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فيروسات كورونا هي أعضاءفي عائلة من الفيروسات المغلفة التي تتكاثرفي سيتوبلازم الخلايا المضيفة 
الحيوانية. يتم تحديدها من خلال وجود جينوم الحمض النووي الريبي أحادي الجديلة single-‏ 
sSRINAC)) stranded plus-sense RNA genome‏ تصنيف للفيروسات) يبلغ طوله حوالي 
0 كيلو بايت وله هيكل 5 غطاء و 3 مسار متعدد الأدينيل. (أكبر فيروس معروف). 


الآن دعونا نتعامل مع بيانات تسلسل الحمض النووي COVID2—19‏ باستخدام Python‏ 


d‏ سيساعدك تثبيت حزم Python‏ مثل squiggles Biopython‏ عند التعامل مع بيانات التسلسل 
البيولوجي -Python (biological sequence data‏ 


pip install biopython 
pip install Squiggle 


قم بتحميل المكتبات الأساسية: 


import numpy as np 

import pandas as pd 
pd.plotting.register matplotlib converters () 
import matplotlib.pyplot as plt 

$matplotlib inline 

import seaborn as sns 

import os 


يمكن تنزيل مجموعة البيانات من Kaggle‏ 


6( تحليل pogua‏ فيروس كورونا COVID-19‏ باستخدام Biopython‏ 


سنستخدم Bio.SeglO‏ من Biopython‏ لتحليل بيانات تسلسل الحمض النووي (fasta)‏ يوفر 
واجهة موحدة بسيطة لإدخال وإخراج تنسيقات ملفات تسلسلية متنوعة. 


from Bio import SeqgIOfor sequence in 
SeqlIO.parse('/coronavirus/MN908947.fna', "fasta"): 
print(sequence.seq) 

print (len (sequence), 'nucliotides') 


-length of the sequence وطول المتسلسلة‎ sequence لذلك ينتج التسلسل‎ 


GCAATGGATACAACTAGCTACAGAGAAGCTGCTTGTTGTCATCTCGCAAAGGCTCTCAATGACTTCA 
GTAACTCAGGTTCTGATGTTCTTTACCAACCACCACAAACCTCTATCACCTCAGCTGTTTTGCAGAG 
TGGTTTTAGAAAAATGGCATTCCCATC...... AGAATGACAAAAAAAAAAAAAAAAAAAAAAAAAA 
AAAAAAA29903 nucliotides 


تحميل تسلسل الحمض النووي التكميلي d Complementary DNA Sequence‏ ملف قابل 
للتراصف .alignable file‏ 


from Bio.SeqRecord import SeqRecord 
from Bio import seglo 
DNAsequence = SeqIO.read('/coronavirus/MN908947.fna', "fasta") 


SeqIO.read()‏ سوف ينتج المعلومات الأساسية المتعلقة بالتسلسل. 


SegRecord(seq-Seq('ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATC 
TCTTGT...AAA', SingleLetterAlphabet()), id-'MN908947.3', 
name-'MN908947.3', description-'MN908947.3 Severe acute respiratory 
syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome', 
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CYTOSINE Ic) CYTOSINE 
NH NUCLEOBASES W 
O: Qt 
Io E 
GUANINE Ie] BASE PA l GUANINE Ie] 
١. بر‎ NH 
NH NH 
H H 
ADENINE JE ADENINE Wl 
HN HN 
N N 
HELIX OF 
N SUGAR-PHOSPHATES N 
N N 
URACIL Wl [_THYMINE Jl 
o o 
Hc 
k - 
© RNA DNA È 
N o RIBONUCLEIC ACID DEOXYRIBONUCLEIC ACID N o 
H N 


s‏ لأن تسلسل الإدخال هو FASTA (DNA)‏ . و Coronavirus‏ هو نوع من الفيروسات من نوع 
gai » RNA‏ بحاجة إلى: 
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RNA (ATTAAAGGTT. => إلى‎ DNA (Transcribe) نسخ‎ ه٠‎ 
AUUAAAGGUU...) 

AUUAAAGGUU... ) إلى تسلسل الأحماض الأمينية‎ RNA (Translate) ترجمة‎ ٠ 
(... => IKGLYLPR * Q 


في السيناريو الحالي؛ Lu‏ ملف fna‏ ب e ATTAAAGGTT‏ ثم سمي transcribeO‏ لذلك يتم 
استيدال T‏ (الثايمين (thymine‏ ب U‏ (يوراسيل (uracil‏ لذلك نحصل على تسلسل RNA‏ الذي 
يبدأ ب .AUUAAAGGUU‏ 


DNA = DNAsequence.seq#Convert DNA into mRNA Sequence 

mRNA = DNA.transcribe() 4Transcribe a DNA sequence into RNA. 
print (mRNA) 

print('Size : ',len(mRNA)) 


سيحول transcribe()‏ الحمض النووي DNA‏ إلى RNA‏ 


UAUUUUAGUGGAGCAAUGGAUACAACUAGCUACAGAGAAGCUGCUUGUUGUCAUCUCGCAAAGGCUC 
UCAAUGACUUCAGUAACUCAGGUUC...UAAUAGCUUCUUAGGAGAAUGACAAAAAAAAAAAAAAAA 
AAAAAAAAAAAAAAAAA 

atv : 25 


الفرق بين DNA‏ و mRNA‏ هو أن القواعد T‏ (للثايمين) يتم استبدالها ب U‏ (لليوراسيل). 


بعد ذلك نحتاج إلى ترجمة تسلسل mRNA‏ إلى تسلسل الأحماض الأمينية amino-acid‏ 

sequence‏ باستخدام طريقة translateO‏ . نحصل على شيء مثل IKGLYLPR * Q‏ (يسمى 
كودون الايقاف (STOP codon)‏ وهو فعال كفاصل للبروتينات). 

Amino Acid = mRNA.translate(table-1, cds-False) 

BEInDE( Amino Aeldl, Amino Acid) 


princ (engl Of Procena len (Amin Acra) 
print("Length of Original mRNA:",len (MENA) ( 


في الناتج أدناه. يتم فصل الأحماض الأمينية بعلامة *. 


" 
" 


Amino Acid : 

IKGLYLPR*QTNOLSISCRSVL*TNFKICVAVTRLHA*CTHAV*LITNYCR*QDTSNSSIFCRLLTV 
SSVLOPIISTSRFRPGVTER*DGEPCPWFORENTRPTQFACFTGSRRARTWLWRLRGGGLIRGTSTS 
*RWHLWLSRS*KRRFAST*TALCVHQTFGCSNCTSWSCYG...*SHIAIFNQCVTLGRT*KSHHIFT 


EATRSTIECTVNNARESCLYGRALMCKINFSSAIPM*F**LLRRMTKKKKKKKKKKLength of 
Protein : 9967 
Length of Original mRNA : 29903 


في السيناريو الخاص بناء يبدو التسلسل كما يلي: * IKGLYLPR * QTNQLSISCRSVL‏ 
TNFKICVAVTRLHA‏ حيث: 


يقوم IKGLYLPR‏ بترميز البروتين الأول (كل حرف يشفر حمض qu‏ واحد) يشفر 
51501457171 البروتين الثاني وهكذا. 


6) تحليل جينوم فيروس كورونا COVID-19‏ باستخدام Biopython‏ 


لاحظ أن هناك تسلسلات أقلفي البروتين من MRNA‏ وذلك لأن 3 mRNA‏ تُستخدم لإنتاج وحدة 
فرعية واحدة من البروتين» تُعرف باسم الأحماض الأمينية camino acid‏ باستخدام جدول الكودون 
codon table‏ الموضح أدناه. * تُستخدم للإشارة إلى كودون الإيقاف»في هذه المناطق يكون البروتين 
قد أنهى كامل طوله. كثير من هذه تحدث بشكل متكرر وتؤدي إلى أطوال قصيرة من البروتين» وعلى 
الأرجح أنها تلعب دورًا بيولوجيًا بسيطًا وسيتم استبعادهاني مزيد من التحليلات. 

fDNA codon وكودون الحمض النووي‎ Genetic code فهمت أولاً ما هي الشفرة الجينية‎ e 


الشفرة الجينية هو مجموعة القواعد التي تستخدمها الخلايا الحية لترجمة المعلومات المشفرة داخل 
المادة الجينية (تسلسل الحمض النووي أو الرنا المرسال mRNA‏ من النوكليوتيدات الثلاثية 
anucleotide triplets‏ أو الكودونات (codons‏ إلى بروتينات. 
يتم تمثيل الشفرة الجينية القياسية GALE‏ كجدول كودون RNA‏ لأنه عندما تصنع البروتيناتفي خلية 
بواسطة الريبوسومات mRNA ob ribosomes‏ هو الذي يوجه عملية تخليق البروتين. يتم تحديد 
تسلسل MRNA‏ بواسطة تسلسل الحمض النووي الجينى genomic DNA‏ فیما يلى بعض ميزات 
الكودونات: l l‏ 

1. تحدد معظم الكودونات حمضًا amino acid sl‏ 

2. تشير ثلاثة أكواد "توقف stop‏ إلى نهاية البروتين. 

3. يمثل كودون "البداية AUG ." start‏ بداية البروتين ويرمز CA‏ إلى الحمض الأميني 


.amino acid methionine ميثيونين‎ 


] 


O»coo»oooccoo»ooo»coo 


Codon 1 


لا 


Codon 2 


Codon 3 


E Vi 


Codon 4 


1 


Codon 5 


E 


Codon 6 


JL. 


Codon 7 


Ribonucleic acid 
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سلسلة من الكودوناتفيٍ جزء من جزيء (mRNA)‏ يتكو نكل كودون من ثلاثة نيوكليوتيدات» تتوافق 
عادة مع حمض أميني واحد. يتم اختصار النيوكليوتيدات بالأحرف A‏ و U‏ و © و0. وهذا هو 
mRNA‏ الذي يستخدم [](يوراسيل) يستخدم الحمض النووي 1 (الثايمين) بدلاً من ذلك. سيرشد 
جزيء mRNA‏ هذا الريبوسوم لتخليق بروتين Gi s‏ لهذه الشفرة. 


from Bio.Data import 00046021321 
print(CodonTable.unambiguous rna by name['Standard']) 


Table 1 Standard, SGCO 


جدول كودون RNA‏ 


دعنا الآن نحدد جميع البروتينات (سلاسل الأحماض الأمينية «(chains of amino acids‏ ونفصل 

أساسًا عند كود الإيقاف» المميز بعلامة *. ثم دعونا نزيل أى ت أقل من 20 o Cal Cas‏ هذا 
A 2s‏ دم دعونا دريل اي من is‏ 

هو أصغر بروتين وظيفي معروف. 


fIdentify all the Proteins (chains of amino acids) 
Proteine = Auno REISE MEM EEDA SEO Cocon 
df = pd.DataFrame (Proteins) 
df.describe( 
print('Total proteins:', len(df))def conv(item): 

ed uunesten«stem)rersateog SEL (Slate ms 

reruma str (abiere) relie || Seeuenee SEE | = EEO enoli (Celo) SEE) 
df['length'] = df[0].apply (conv) 
df.rename(columns-[(0: "sequence"), inplace-True) 
df.head()4 Take only longer than 20 
E URE E ONAN procena = QE oe OE [rU lengka] == 20] 
prine ) Total EuUneeional CEOleIMS? Vn. diesmal rapuere datori PEOEE TDS) ( 
functional proteins.describe() 
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sequence sequence str length 


35 


S, N, S, S, I, F, C, 


"EE ISTIS PO RR QDTSNSSIFCRLLTVSSVLQPIISTSRFRPGVTER 


P, C, P, M, F, Q, 


E, N, T, RP DGEPCPWFQRENTRPTQFACFTGSRRARTWLWRLRGGGLIRGTSTS 


C, V, n 


TALCVHQTFGCSNCTSWSCYG 


VH, 0, T 
C, S, N, C, 
C: PFI GOES 


F, 
, C, 
8, N, T, S, G, 


DTWCPCPSCGRNTSGLPQGSSS 


W, G, M, S, K, F, 


A e ES. HLQWGMSKFCISLKFHNQDYSTKG 


تحليل البروتين باستخدام الوحدة النمطية Biopython (Protparam‏ باستخدام .ProtParam‏ 


الأدوات المتاحةفي :ProtParam‏ 


:count amino acids‏ ما عليك سوى حساب عدد المرات التي يتكرر فيها 
الحمض الأمينيفي تسلسل البروتين. 

:get amino acids percent‏ نفس طريقة إرجاع الرقم بالنسبة المئوية 
للتسلسل بأكمله. 

molecular weight‏ لحساب الوزن الجزيئي للبروتين. 

:aromaticity‏ تحسب القيمة العطرية للبروتين. 

flexibility‏ تنفيذ طريقة المرونة. 


IsoelectricPoint تستخدم هذه الطريقة الوحدة النمطية‎ :isoelectric point 
للبروتين.‎ pl لحساب‎ 

:Secondary structure fraction‏ ترجع هذه الطريقة قائمة بكسر 
الأحماض الأمينية التي تميل إلى أن تكونفي الحلزون helix‏ أو الدوران turn‏ أو à; JI‏ 
.sheet‏ 

LOW «F OY 1 eV Amino acids in Helix الأحماض الأمينيةفي الحلزون‎ 
.S.G ¿P N : Amino acids in Turn الأحماض الأمينيةفي الدور‎ 

.L«A «M «E :Amino acids in Sheet الأحماض الأمينيةفي الورقة‎ 


تحتوي القائمة على 3 قيم: | [Sheet Turn «Helix‏ 


from X future X import division 

por ligt = [D 

from Bio.SeqUtils import ProtParam 

for record in Proteins[:]: 
Tox MN) 
X = ProtParam.ProteinAnalysis (str (record) ) 
POI - X.count amino 32450 


co 
[o9] 
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poi list.append(POI) 
MW > X.molecular weight() 
MW list.append (MW) 
print("Protein of Interest — ", POI) 
print("Amino acids percent 
D sti ATONE AMINO acida Pe EC OME) 
perme Mole Sul as welam = Wy MU Iase) 
DEINE (LAEOMaA ELECLEY xe 22 91ت‎ 2167 (h) 
peine (LELE TOE EY = Un دك 1ع كا‎ 1 paias y) 
prime TSEC leCEATE BOME = wo K 1562 ات لم1‎ ponme) 
print("Secondary structure fraction - ", 
X.secondary structure fraction()) 


Il 


Protein of Interest = {'A': @, : 8, : 9, : ©, : - NTO MAINE ean 
20 U E O, PIT !n*: - : : : "W's O, Y1 1} 
Amino acids percent A A A 'C': 0. : 8. 53 J "6": 0.125, 'H': 8. 
0, 'I': 0.125, 'K': 0.125, 8.25, : i : 0. : 0. : 0.0, 'R': 0.125, 

'S': 8.0, 'T': 0.0, 'V': 0.0, 'W': 0 
Molecular weight = 959.1858 
Aromaticity = 0.125 
Flexibility = [] 
Isoelectric point = 9.99432373046875 
Secondary structure fraction = (0.5, 0.25, 0.25) 


Protein of Interest [A O, Cu OTO; 'E' ©, تلع"‎ "6": 0, s: 9, 'I': 


1, 
8, 'L': 2, 'M': 0, 'N': 1, 'P': 0, 'Q': 2, 'R': 1, 'S': 3, 1, 'V': 1, 'W': 0, 'Y': 
0. 


Amino acids percent = {'A': 0.0, 'C': 0.07692307692307693, 'D': 0.0, 'E': 0.0, 'F': e, 0 
0.0, 'H': 0.0, 'I': 0.07692307692307693, 'K': 'L': 0.15384615384615385, 'M': 0.0, 'N': 0. 
07692307692307693, 'P': 0.0, 'Q': 0.1538461 'R': 0.07692307692307693, 'S': 0.230769 
23076923078, 'T': 0.07692307692307693, 'V': 0.07692307692307693, 'W': 0.0, 'Y': 0.0) 

Molecular weight = 1448.6445 

Aromaticity = 0.0 

Flexibility = [1.0195, 0.9710238095238095, 1.0122976190476192, 0.9595714285714285] 
Isoelectric point = 8.24969482421875 

Secondary structure fraction = (0.3076923076923077, 0.3076923076923077, 0.15384615384615385( 


ارسم النتائج: 
MON = pd.DataFrame(data = MW list,columns = ["Molecular Weights"]‏ 
)*plot POI‏ 
MSE poste‏ رمس 
plt.figure(figsize-(10,6));‏ 
ple AE OO list SSN, LISE (exeat lise- valves) «bans centes)‏ 


200 
150 


100 
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Biopython باستخدام‎ COVID-19 تحليل جينوم فيروس كورونا‎ )6 Am 


يبدو أن عدد Lysines (L)‏ و Valines (V)‏ مرتفعفي هذا البروتين مما يشير إلى عددكبير من حلزونات 
الفا .Alpha-Helices‏ 


a-helix 


The telephone cord shape 
of the a-helix is held in 
place by Hydrogen bonds 
between every N-H group 
and the oxygen of a C=O 
group in the next turn of the 
helix, four amino acids 
down the chain. The 
typical a-helix is about 11 
amino acids long. 


الآن دعونا نقارن التشابه بين COVID-19 / COV2‏ و MERS‏ و .SARS‏ 


قم بتحميل ملف تسلسل الحمض النووي (FASTA)‏ لكل من السارس وفيروس كورونا وفيروس 
Ias‏ 


#Comparing Human Coronavirus RNA 

from Bio import pairwise2SARS = 
SeqlIO.read("/coronavirus/sars.fasta", "fasta")MERS 
SeqlIO.read("/coronavirus/mers.fasta", "fasta")COV2 
SeqlIO.read("/coronavirus/cov2.fasta", "fasta") 


MERS: 30119 .COV2: 29903 «SARS: 29751 أطوال التسلسل:‎ # 


قبل مقارنة التشابه» دعونا نتخيل الحمض النووي لكل من COV2‏ و SARS‏ و MERS‏ على التوالي. 


dExecute on terminal 
Squiggle cov2.fasta sars.fasta mers.fasta --method-gates --separat 


تصور الحمض النووي لكل من COV2‏ و SARS‏ و MERS‏ على التوالي. 
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كما يمكننا أن نلاحظ أن بُنية الحمض النووي ل COV2‏ و SARS‏ متطابقة تقريبّاءفي حين أن بنية 
MERS‏ مختلفة قليلاً عن الاثنين. 


الآن دعونا نستخدم تقنية تراصف تسلسلي Sequence alignment‏ لمقارنة التشابه بين جميع 
تسلسلات الحمض النووي. 


تراصف تسلسلي هي عملية ترتيب تسلسلين أو أكثر (تسلسل DNA‏ أو RNA‏ أو بروتين) بترتيب 
معين لتحديد منطقة التشابه بينهما. 


يتيح لنا تحديد المنطقة المتشابهة استنتاج الكثير من المعلومات مثل السمات المحفوظة بين الأنواع» 
ومدى قرب الأنواع المختلفة من الناحية الجينية» وكيف تتطور الأنواع» وما إلى ذلك. 


تقارن التراصف التسلسلي الزوجي , Pairwise sequence alignment‏ تسلسلين فقطفي كل مرة وتوفر 
أفضل محاذاة تسلسل ممكنة. من السهل فهم الأزواج واستنتاجها بشكل استثنائي من محاذاة التسلسل 


الناتجة. 


يوفر Biopython‏ وحدة نمطية خاصةء Bio.pairwise2‏ لتحديد تسلسل المحاذاة باستخدام طريقة 
الزوج. يطبق Biopython‏ أفضل خوارزمية للعثور على التساسل المتراصف وهو مكافئ للبرامج 
الأخرى. 


# Alignments using 53121562 alghoritmSARS COV = 
pairwise2.align.globalxx(SARS.seq, COV2.seq, 

one alignment only-True, score only-True)print('SARS/COV Similarity 
($):', SARS COV / len(SARS.seq) * 100)MERS COV - 
pairwise2.align.globalxx (MERS.seq, COV2.seq, 

one alignment only-True, score only-True)print('MERS/COV Similarity 
($):', MERS COV / len(MERS.seq) * 100)MERS SARS - 
pairwise2.align.globalxx(MERS.seq, SARS.seq, 

one alignment only-True, score only-True)print('MERS/SARS 
Similarity ($):', MERS SARS / len(SARS.seq) * 100) 


SARS/COV Similarity (5): 83.33837518066619 
MERS/COV Similarity (5): 69.39141405757164 
MERS/SARS Similarity (5): 69.93714496991697 


مقارنة النتائج 


كشف التحليل الوراثي Phylogenetic analysis‏ للجينوم الفيروسي الكامل )29903 نيوكليوتيدات) 
أن فيروس COVID-19‏ كان أكثر ارتباطًا (83.3 / تشابه نيوكليوتيد) بمجموعة من فيروسات كورونا 


101 6( تحليل جينوم فيروس كورونا COVID-19‏ باستخدام Biopython‏ 


الشبيهة بالسارس (subgenus Sarbecovirus .Betacoronavirus |j)‏ التي سبق العثور عليها 
في الخفافيشفي الصين. 


ارسم النتائج: 


# Plot the data 

DOE MEVS ATUS UVP E MERS COOMA فس‎ SARS | 

Y = [SARS_COV/ len (SARS.seq) * 100, MERS COV/ len(MERS.seq)*100, 
MERS SARS/len(SARS.seq)*100] 

plt.title('Sequence identity )5('( 

pista) 


Sequence identity (96) 


SARS/COV2 MERS/COV2 MERS/SARS 


يمكنك الحصول على الكود -GitHub repo (Us‏ 


الاستنتاج 

لذلك رأينا كيف يمكننا تفسير وتحليل بيانات تسلسل الحمض النووي ل .COVID-19‏ وحاولنا 
الحصول على العديد من الأفكار فيما يتعلق بالبروتينات التي تتكون منها.في النتيجة التي توصلنا إليهاء 
حصلنا على عدد من Valines (V) Leucine (L)‏ مرتفعافي هذا البروتين مما يشير إلى وجود عدد 
كبير من .Alpha-Helices‏ 


في وقت لاحق قمنا بمقارنة الحمض النووي ل 0017110-19 مع MERS‏ و SARS‏ . ورأينا أن 
COVID-19‏ وثيق الصلة بالسارس .SARS‏ 


المصدر: 


https://www.kdnuggets.com/2020/04/coronavirus-covid-19-genome- 


analysis-biopython. html 


7( المعالجة المسبقة لتسلسل DNA‏ المتقدم لشبكات التعلم العميق 


7( المعالجة المسبقة لتسلسل DNA‏ المتقدم لشبكات التعلم العميق 
Advanced DNA Sequences Preprocessing for Deep Learning‏ 
Networks‏ 

تم تطبيق بنيات التعلم العميق E Deep-learning‏ | الشبكات العصبية العميقة Deep Neural‏ 
Networks‏ وشبكات الاعتقاد العميقة Deep Belief Networks‏ والتعلم المعزز العميق Deep‏ 
Reinforcement Learning‏ والشبكات العصبية المتكررة Recurrent Neural Networks‏ 
والشبكات العصبية التلافيفية Convolutional Neural Networks‏ والمحولات Transformers‏ 
في مجالات تشمل رؤية الكمبيوتر Computer Vision‏ والتعرف على Speech p%‏ 
izle Recognition‏ اللغة الطبيعية Natural Language Processing‏ والترجمة الالية 
Machine Translation‏ والمعلوماتية الحيوية Bioinformatics‏ تصميم «Drug Design à PS‏ 
وتحليل الصور الطبية Medical Image Analysis‏ . وعلوم المناخ Climate Science‏ وفحص المواد 
«Material Inspection‏ وبرامج ألعاب الطاولة Board Game programs‏ حيث أسفرت عن نتائج 
مماثلة وفي بعض الحالات تفوق أداء الخبراء البشريين. 


أظهر التعلم الآلي Machine Learning (ML)‏ نتائج واعدة جد لتحليل تسلسل الحمض النووي 
àDNA‏ الطب السريري clinical medicine‏ لقد ثبت أنه يحل مهام محددة لعلم الجينوم السريري 
«clinical genomics‏ والاستدعاء المتغير «variant calling‏ والتعيين من النمط الظاهري إلى النمط 
الظاهري «phenotype-to-phenotype mapping‏ وتعليقات الجينوم «genome annotation‏ 
والتصنيف المتغير «variant classification‏ إلخ. 


في كثير من الحالاتء عندما نطبق التعلم الآلي لمجموعات بيانات تسلسل الحمض النووي DNA‏ 
sequence datasets‏ قد تظهر المشكلات التالية: 


No enough training and validation لا يوجد تدريب كاف وبيانات التحقق من الصحة‎ ٠ 
.data 

.Data cleaning and encoding requirements متطلبات تنظيف البيانات وترميزها‎ o 

ه تسمية بيانات الفئات غير المتوازنة .Label imbalanced classes data‏ 


يمكن إصلاح هذه المشكلات عن طريق توليد بيانات تسلسل الحمض النووي التركيبي synthetic‏ 
-DNA sequence data‏ تقترح هذه الورقة عملية خط أنابيب بيانات Extract- Transform-Load‏ 
(ETL)‏ لحل المشكلات المذكورة أعلاه. وهي تطبق تنظيف سلسلة تسلسل الحمض النووي والتحقق 
من صحتهاء وترميز التسميات label encoding‏ وخوارزمية .SMOTE‏ 
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مراجعة الترميز واحد ساخن لتسلسل DNA‏ 

بالنسبة لشبكات التعلم العميق Deep Learning Networks (DLN)‏ يجب أن يكون ترميز تسلسل 
الحمض النووي المطلوب هو مشفر واحد ساخن encoder‏ 026-1206 كما هو موضحفي تطبيق 
خوارزميات التعلم الآلي لورقة تصنيف بيانات الجينوم. دعونا نحاول مراجعة وتحليل مشفر واحد ساخن 
لتسلسل الحمض النووي الذي يحتوي على أربعة نيوكليوتيدات رئيسية ۸ و0 و -T g G‏ وسيتم استخدام 
.dna sequence one hot encoder) äl‏ تم تطوير هذه الدالة باستخدام كائن فئة 
OneHotEncoder O‏ من .scikit- Learning‏ 


dna sequence - "ACGT" 
dna onehot encoder - PyDNA.dna sequence one hot encoder(dna sequence) 


النتائج: 


DNA sequence string: 
ACGT 


DNA sequence list: 
NEU. XWoUy Wes Vae 
DNA sequence label encoder: 
0 3L S 
DNA sequence label encoder reshape: 
[ig 3b 2 1 
DNA sequence one-hot encoder: 
[EE CC 0 O 
Oa مك‎ Oa a 
05 O 1 el 
Oa Or. (Os. dis] 
DNA sequence one-hot encoder shape: 
(eip A) 
Number of rows: 
4 
Number of columns: 
4 


كما ترى فإن عدد الصفوف يمثل حجم (طول (length‏ تسلسل الحمض النووي وعدد الأعمدة التي 
تحدد عدد النيوكليوتيدات الأساسية الفريدة. يجب أن يكون عدد الأعمدة أربعة. هذا مطلب لتطوير نماذج 


دعونا نجرب تسلسل الحمض النووي بحجم 20 نيوكليوتيد قاعدي. 


dna sequence = "ATGATCGCATAGATGACTAG" 
dna onehot encoder - PyDNA.dna sequence one hot encoder(dna sequence) 


النتائج: 
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DNA sequence string: 

ATGATCGCATAGATGACTAG 

DNA sequence list: 

['A*. T e VAM UR pu (er n Wer PARU MURS DATE Jie A, 
TU 'G', 


AU Qu. Uupu UA SL E | 


DNA sequence label encoder: 
[o $2 0312103070203201 9 0 2] 
DNA sequence label encoder reshap 
LU S Z2 031210302703201 $ 0 Z] 
DNA sequence one-hot encoder: 
Ls O. Oa (Qo 

0. Qu 0 15 

Us Qu d. 0. 

ds Qs €. 9. 

0. Qu. OE 15 

ü dis (0), (i. 

O Qu i5 gU. 

Ws ko Oa U. 

ds (9. (0. OF 

0. Qa. 0 15 

ds Os OQ. 9. 

Os Q. is gg. 

ls Qa 0 (05 

üs (Qs. (6 5 

Os Qs i. B. 

dis Q5 OQ. 0. 

0s dias. (6). (is 

Os. Qa O 15 

das (Qa O (0. 

Ca (s is Oall 
DNA sequence one-hot encoder shap 
(20, 4) 
Number of rows: 
20 
Number of columns: 
4 


نحصل على 20 o‏ و 4 أعمدة كما ينبغي. 


في تسلسل الحمض النووي أدناه. يكون نوكليوتيد القاعدة G‏ مفقودًا. 


DNA sequence list: 

] V DUE. ho. FRAU Ven as nor 5o YAT MTM HESS M XR. 
ua nos 

A E Nune TAU “ewi 

DNA sequence label encoder: 

O 2 3. 0) 2 Jb 3L 3L (9 2 4) 10 2 3. O 3X 2 O TI 

DNA sequence label encoder reshape: 

LEO 2 3 0 2 1 1 30201 0 21 ?.z 2 O L] 

DNA sequence one-hot encoder: 
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Ofa (9 dio 

Bs. E Quo 

(s 3.5 (5 

Qa dis Oa 

1 EN 

B Qa d. 

ds. 0 (9 

Qs d 5 Q5 

& Us E 

05. 9 15 

Qs 15 9. 

dba. (Qu. (Qi. 

Qs. TE (95 

Q. Q X. 

is. (Qus. (o 

0. 15 0.1] 
DNA sequence one-hot encoder shape: 
(20, 33) 
Number of rows: 
20 


Number of columns: 


ETERS 
DLN الصف المحدد هذا مع ترميز واحد ساخن لخوارزميات التعلم الالي. على وجه التحديد. بالنسبة ل‎ 
يجب توجيه البيانات لأداء عمليات المصفوفة المطلوبة بكفاءة. هذا يعني أن عدد الصفوف والأعمدة لكل‎ 
يجب أن يكون هو نفسه لمجموعة البيانات بأكملها. على سبيل المثال: إذا كان عدد‎ DNA تسلسل‎ 
الأعمدة مختلفاء فسيتم فقد نيوكليوتيد قاعدة الحمض النووي ويحدث الخطأ التالي عند إنشاء مصفوفة‎ 

ترميز الإدخال النهائي ذات الواحد الساخن. 
[File Name]: | 0110011003 |envs|python3.10.9 Mib |site-packages |numpy |core|shape base.py‏ 
[Procedure Name]: stack [Error Message]: all input arrays must have the same shape [Error‏ 


Type]: «class 'ValueError'» [Line Number]: 426 [Line Code]: raise ValueError('all input 
arrays must have the same shape") 


بالنسبة لحالات الاستخدام هذه. يمكننا إزالة الصف (فقدان البيانات (loose the data‏ أو استخدام نوع 


من حشو التسلسل .sequence padding‏ بالنسبة لأي من هذه الحلول» يجب اختبار نموذج (نماذج) 
التعلم الالي المحدد بعناية باستخدام مجموعات بيانات إنتاج حقيقية. 


حشوة ترميز واحد ساخن لتسلسل DNA‏ 

دعونا نلقي نظرة على حلول حشو تسلسل الحمض النووي .DNA sequence padding‏ توفر المدونة 
"معالجة مدخلات الحمض النووي ذات الحجم المتغير" أساسيات حشو التسلسل باستخدام مكتبة كيراس 
.https://keras.io/)‏ تمت تغطية مقدمة جيدة لدالة ġpad sequences)‏ ورقة Keras"‏ 


.'pad sequences 
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افترض أن لدينا تسلسلين من الحمض النووي بأحجام مختلفة. هذا هو أول واحد. 


1. DNA sequence string: 

ATGATCGCATAGATGACTAGT 

DNA sequence list: 

] T. VEU VAM P. PUES. E E AT, "T 'A', UU "AT, 
Urn UCET 


TAT ET, TIRY TAS "gu. ogpu] 


DNA sequence label encoder: 
[0 9 209i 21 0 20 2 20 1229 2 3l 
DNA sequence label encoder reshap 
LIO 3 Z O9 S LL Z 1 9 92 0 SG 2 01 » 0 2 3J 
DNA sequence one-hot encoder (dna one hot encoderl): 
LEL: Oa Oa Oa 

Os Qs Og 1 

Ws. Os Me O, 

Le Qs Oa B. 

Os Qu. 0 15 

Oia dis (0. (0. 

O5 Q. i1. Oe 

Us ko OQ. 0% 

ds Qu (0). (0. 

O. Q (0 35 

ds Qu Oe 0. 

0s Qo ds Ue 

ls Qu. OE 5 

Ds. (s. (0 , ji. 

On Qo is OE 

ds Q. OQ. OC 

Oi dis (0), (i. 

0. Q. Q, 15 

ds Qu OQ. 0. 

0s Qm. i. B. 

0. Qa O0. 15] 
DNA sequence one-hot encoder shap 
(2i; @( 
Number of rows: 
21 
Number of columns: 
4 


2. DNA sequence string: 

ATGATCGCATAGATGACTAGTAGAT 

DNA sequence list: 

p 5A VITE cu VUA T WGH 'G', hone A, UE" "BU. ure XR. 
US qp m Nt 

TATT Uu Nune UU E veur MIU A EN A TI 
DNA sequence label encoder: 

IU 9 2 0 S i 2 1 9 S 0 2 0 9 20 15302 $902 3] 
DNA sequence label encoder reshap 

LEO 9 2 9 S 1 Zi? 20 920 150 ES CZ CO JJ] 
DNA sequence one-hot encoder (dna one hot encoder2): 
[ibo (0.5 Oa 65] 
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> em dem 0-2 emn 


0 


لعا 
تح O‏ فى أت حر (e»Y (em) 22 ue»‏ نت em) (EY GE»)‏ تج ىا © CY‏ نئي te»‏ ته )95( )65( en‏ 2252© 
a (Ex)‏ تك كك 22 حىئ فى 9ك )065 حر (ey‏ »4€ حر انق في اي (65x‏ حم (e‏ 823( 22 69( 62 
Jc (em) e Û a LE ES dem) «ee [s‏ 222 تي [L2‏ يي يي es xe» (my JL 2462 [pe‏ كر 


0 1 ai] 
DNA sequence one-hot encoder shap 
2, A) 

Number of rows: 

25 

Number of columns: 

4 


تسلسل الحمض النووي الأول له شكل (4 ,21) والثاني (4 ,25). سنحتاج إلى استخدام نوع من المساحة 
المتروكة لأول واحد لإضافة أربعة صفوف أخرى إليه. للقيام بذلك. سيتم استخدام دالة كيراس 
pad. sequencesQ‏ الموضحة أدناه. 


Gstaticmethod 
def dna onehot encoder padding(dna onehot encoded list, data type, 
padding type, padding value): 
try: 
dna padding - 
tf.keras.preprocessing.sequence.pad sequences(sequences-dna onehot | 
ncoded list, 
dtype-data type, padding-padding type, value-padding value) 
excepi: 
print(PyDNA.get exception info()) 
if PyDNA. app is log: PyDNA.write log file("error", 
PyDNA.get exception info()) 
return dna padding 


في البرنامج أدناه. يتم تمرير قائمة تسلسل الحمض النووي المشفر واحد ساخن إلى 
PYDNA. dna onehot. encoder. paddingO‏ لتعبئة الأول. 


dna onehot encoded list = [dna one hot encoderl, 
dna one hot encoder2] 
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Eos dren iM Gna 521 ل‎ lists 
print("DNA one-hot encoder: Nn()".format(item)) 
dna padding - 
PyDNA.dna onehot encoder padding(dna onehot encoded list, "float32", 
"pre", 0) 
for padded in dna padding: 
print (padded.shape) 
print ("DNA one-hot encoder padded: Mn()".format (padded) ) 


دعونا نلقي نظرة على نتائج البرنامج لأول مشفر تسلسل الحمض dna one hot encoder $5 jJ!‏ 
قبل الحشو. 


DNA one-hot encoder: 
م‎ 


(E) 
(= 


(em Xem تت‎ (e) + ات‎ 


12 e aE [px «em تي‎ G |I 265 تي‎ 222 ES em) 


6 
Cs Le به‎ (XY © ات‎ (E (em) (EX (Ex) 5 كه‎ (em) JE OR انث‎ E (E) (9) 
MOTT فق يك قث‎ Or OOF (EX) (2X E (CA $— ا يت‎ (09 [0 O 


n 

رع 

w 
T 

[0] 

[is 

[Es 


ها هي النتائج بعد الحشو. 


DNA one-hot encoder padded: 
LIOS (a. 07 


(ey em) [E O dem) ني يئ‎ |f— ee GOG |l Xem (ey (mmi (em) (6m) 


Or rO ہے‎ Xe») (es) (e) (e [5 Xem) (em) [3 (6 (9) (e) 
(e em ب‎ ms a (em [E ىجا )85( ات في اث فت‎ OOG 
يق دح يق 9( ىق تك ےا‎ de de» POOO OO 
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(e [— m» xem) [ES xem) (ex qp 
DO GOG (em [Ee e» (em) em d) 
fe m» أي ران قي‎ 


© 


& Qs i4] 
shape: (25, 4) 


كما ترى. تمت إضافة الصفوف الأربعة التالية ذات القيم الصفرية إلى بداية مشفر numpy‏ غير المترابط. 


U. O. U. 9 
0. Q9. O. 0 
O 0s 0s 0 
0, 9. O. 0 
إذا تغيرت قيمة الحشو إلى 1( ستكون الصفوف الأربعة الأولى كما يلي:‎ 
E bg bo En 
e sdb dba 
ds ds ds 5 
La CIL SS db. ig 


من المهم الإشارة إلى أنهي حالة احتواء أي من مجموعات البيانات المشفرة ذات الترميز الواحد ساخن 

لتسلسل الحمض النووي على عدد مختلف من الأعمدة. فلن تعمل دالة حشو التسلسل هذه. لهذه الحالة 
سيحدث الخطأ التالى. 

[File Name]: C: |Users|portland | 01102011003 \envs |python3.10.9 lib |site- 

packages |keras |utils|data  utils.py [Procedure Name]: pad sequences [Error Message]: 

Shape of sample (3,) of sequence at position 1 is different from expected shape (4,) [Error 


Type]: «class 'ValueError'» [Line Number]: 1084 [Line Code]: raise ValueError(Shape of 
sample (3,) of sequence at position 1 is different from expected shape (4,)) 


الآن بعد أن أصبح لجميع تسلسلات الحمض النووي ذات الترميز الواحد ساخن لها نفس الشكل» يمكن 
تطبيق أي خوارزميات DLN‏ لتطوير النماذج التنبؤية النهائية. يجب اختبار هذا النموذج مع بيانات الإنتاج 
المعروفة الحقيقية. 


تنظيف بيانات تسلسل , DNA‏ 

أثناء تطوير التعلم «QAI‏ يكون تنظيف البيانات data cleaning‏ (المعالجة المسبقة (preprocessing‏ 
حوالي 760 — 70/ من العمل بأكمله. يعرف مهندسو البيانات ذلك جيدا. بالنسبة لمشروعات تسلسل 
DNA‏ للتعلم الالي باستخدام التصنيف classification‏ والانحدار regression‏ والتجميع 
cclustering‏ تعد عملية تنظيف البيانات مهمة جدا ومطلوبة. للتحقق من تسلسل الحمض النووي» هناك 
متطلبان رئيسيان: 
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1. يجب أن تحتوي سلسلة تسلسل الحمض النووي فقط على أربعة أحرف نيوكليوتيد رئيسية A‏ و 
© و © و'1. أي حرف آخرفي سلسلة التسلسل سينشئ عمودًا oda‏ عند تحويله إلى مشفر 
واحد ساخن. 

2. يجب أن تحتوي سلسلة تسلسل الحمض النووي على جميع النيوكليوتيدات الأربعة الرئيسية 
حرف ۸ و € و 6 و T‏ أي حرف مفقودفي سلسلة التسلسل سيقلل من كمية الأعمدة عند 
تحويلها إلى مشفر واحد ساخن. 


دعونا نلقي نظرة على بعض حالات الاستخدام للتحقق من هذين المطلبين.في نتائج الشفرة أدناه. يمكننا 
أن نرى تسلسل DNA‏ صالحًا يحتوي على جميع النيوكليوتيدات الأربعة الرئيسية. يتكون شكل الترميز 
الواحد الساخن من 60 Go‏ و4 أعمدة. 


DNA sequence string: 
AACTTCTCCAACGACATCATGCTACTGCAGGTCAGGCACACTCCTGCCACTCTTGCTCTT 
DNA sequence validation result: 

True 

DNA sequence one-hot encoder shape: 

(60, 4) 


في النتائج الثانية الموضحة أدناه. يمكننا أن نرى أن تسلسل الحمض النووي يحتوي على حرف جديد 
"N"‏ بسبب ذلك فشل التحقق من الصحة validation failed‏ . تم زيادة شكل المشفر واحد ساخن 
بمقدار عمود آخر. 


DNA sequence string: 
AACTTCTCCAACGACATCATGCTACTGCAGGNCAGGCACACTCCTGCCACTCTTGCTCTT 
DNA sequence validation result: 

False 

DNA sequence one-hot encoder shape: 

(60, 5) 


في نتائج الشفرة الثالثة أدناه يمكننا أن نرى أن تسلسل الحمض النووي يفتقد حرف النوكليوتيدات 

الأساسي "6". فشل التحقق من الصحة بسبب هذا. تم تقليل شكل المشفر واحد ساخن بمقدار عمود 
واحد. 

DNA sequence string: 

AATCTTCCCAACCCCTCTCTCTTACTTTCTAATCTATCATCTACTCATCTATCCTCACTT 

DNA sequence validation result: 

False 


DNA sequence one-hot encoder shape: 
(60, 3) 


للحالتين Z26JE‏ والعالتة أعلاة: يجب تحديت cB ico‏ تسلسل الحمقن التووي أو إزالتها: الأمر هتروك 
لفريق إدارة مشروع التعلم الآلي لاتخاذ هذه القرارات. 
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مجموعة بيانات تسلسل جينات Splice-junction‏ 

تحتوي مجموعة بيانات تسلسل الجينات splice-juncton gene sequences splice-junction‏ 
dataset‏ على معلومات حول الوصلات الوراثية المأخوذة من 64.1 -Genbank‏ يوضح وصف المهمة 
أن الجينات تتم إزالتها أثناء عملية نسخ الحمض النووي الريبي RNA‏ وتسمى إنترونات introns‏ 
بينما تستخدم المناطق لتوليد MRNA‏ وتسمى إكسونات exons‏ تسمى الوصلات بينهما تقاطعات 
.(splice-junctions) splice‏ هذه التقاطعات هي BUS‏ على تسلسل الحمض النووي حيث تتم إزالة 
الحمض النووي "الزائد "superfluous‏ أثناء عملية تكوين البروتينني الكائنات الحية الأعلى. هناك نوعان 
من وصلات الربط: تقاطع exon-intron‏ وتقاطعات intron-exon‏ يتكون كل تسلسل من 
تسلسلات الحمض النووي في مجموعة البيانات هذه من 60 نيوكليوتيد قاعدي. ينتمي كل تسلسل DNA‏ 
إلى واحدة من ثلاث فئات: "ET‏ (تقاطع "IE" 5 «(Extron-Intron‏ (تقاطع (Intron- Extron‏ و 
"N"‏ (ليس EI‏ أو (IE‏ هناك 767 جينة تحمل تسمية EI‏ و 768 بعلامة IE‏ و 1655 بعلامة N‏ تتمثل 
مهمة مجموعة البيانات هذهفي تصنيف. بالنظر إلى تسلسل الحمض النووي» الحدود بين exons‏ (أجزاء 
تسلسل الحمض النووي المحتفظ بها بعد الربط (splicing‏ والإنترونات introns‏ (أجزاء تسلسل 
pa‏ انرون القن ea‏ هة 


مشاكل الفثات غير المتوازنة في تسلسل الحمض SIHI‏ 

يعد التعامل مع مشكلات العالم الحقيقي لمجموعات بيانات الفتات غير المتوازنة imbalanced‏ 
classes datasets‏ باستخدام التعلم الآلي الحالي مهمة بسيطة لأنواع بيانات الميزات العددية.في الورقة 
البحثية "تصنيف التعبير الجيني RINA- Seq‏ باستخدام خوارزميات التعلم e SII‏ استخدمت تقنية فرط 
أخذ العينات للأقليات الاصطناعية Minority Oversampling Technique (SMOTE)‏ 
لمجموعة بيانات .RINA-Seq (HiSeq) Pan-Cancer Atlas dataset‏ تم تنفيذ ذلك باستخدام 
سطور الشجرة التالية من كود .Python‏ 


from imblearn.over sampling import SMOTE 
smote over sampling = SMOTE(random state-50, n jobs--1) 


X, y = smote over sampling.fit resample(X, y) 


حيث × هي مصفوفة قيم السمات features values‏ و هي المصفوفة (أو متجه أحادي البعد) لقيم 
الهدف target‏ (التسمية (label‏ - هذا كل شيء حتى «o‏ جيد وبسيط! 


في مجموعات بيانات الجينوم الخاصة بناء تكون تسلسلات الحمض النووي عبارة عن أنواع بيانات 
(نصية (text‏ فئوية categorical‏ كما نعل أي خوارزميات حل الفئات غير المتوازنة تعمل مع البيانات 
العددية فقط.في هذه الحالةء يجب التحقق من صحة (تنظيف (cleanup‏ مجموعة بيانات تسلسل 
الحمض النووي ومعالجتها مسبقًا (مشفرة Cencoded‏ من قبل.في بحثي بعنوان "تطبيق خوارزميات التعلم 
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الآلي لتصنيف بيانات الجينوم“» غطيت ثلاث طرق ترميز رئيسية لسلسلة تسلسل الحمض النووي: ترميز 
التسمية Label Encoding‏ والترميز الواحد الساخن One-Hot Encoding‏ . وعد K- K-mer‏ 
(mer Counting‏ هذه الورقةء سأستخدم ترميز التسمية. بالنسبة لتسلسل نيوكليوتيدات القاعدة الأربعة 
"ACGT"‏ . فإن التسمية الافتراضية المشفرة ستكون [0 2.81٠‏ . 3]. بالنسبة لمجموعة البيانات الأصلية 
يتم عرض مخطط حدود فئات الحمض النووي غير المتوازنة أدناه. 


Spli 
1600 
767 768 
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8 IE N 


[ 
Imbalanced DNA Class Boundaries 


ice-junction DNA Gene Sequences 


حل الفتات غير المتوازنة لتسلسل الحمض النووي المتقدم باستخدام خط أنابيب 
بيانات ETL‏ 


للتحقق من تسلسل الحمض النووي وتشفير مجموعة بيانات csplice-junction‏ سأستخدم عملية 
أنابيب بيانات شاتعة جد تسمى ٳي إل تي .Extract- Transform-Load (ETL)‏ عندما يكون 
"الاستخراج "Extract‏ هو استخراج البيانات من مصدر واحد أو ES‏ فإن "التحويل "Transform‏ هو 
تحويل البيانات (المعالجة المسبقة preprocessing‏ أو التنظيف (cleansing‏ و "التحميل "Load‏ هو 
تحميل البيانات إلى وجهة واحدة أو أكثر. 


“إي إل تي ETL‏ هو الإجراء العام لنسخ البيانات من مصدر واحد أو أكثر إلى نظام الوجهة الذي يمثل 
البيانات بشكل مختلف عن المصدر (المصادر) أوفي سياق مختلف عن المصدر (المصادر). أصبحت 
عملية ETL‏ مفهومًا USUS‏ السبعينيات وغالبًا ما تستخدمفي تخزين البيانات. يتضمن استخراج البيانات 
Data extraction‏ استخراج البيانات من مصادر متجانسة homogeneous‏ أو غير متجانسة 
gle ‘heterogeneous‏ تحويل البيانات data transformation‏ البيانات عن طريق تنقية البيانات 
وتحويلها إلى تنسيق / هيكل تخزين مناسب لأغراض الاستعلام والتحليل؛ d‏ يصف تحميل البيانات 
data loading‏ إدخال البياناتفي قاعدة البيانات الهدف النهائي مثل مخزن البيانات التشغيلي 
operational data store‏ أو سوق البيانات data mart‏ أو بحيرة البيانات data lake‏ أو مستودع 
البيانات data warehouse‏ ". فيما يلي رسم تخطيطي بسيط لعملية .ETL‏ 
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Source Destination 


= 


= 
E E) ms 
9 5 


في حالتناء فإن المنتج النهائي لعملية ETL‏ هذه هو إنشاء ملف CSV‏ تم التحقق من صحته ومعالجته 
مسبقا. يمكن تطبيق هذا الملف على أي خوارزميات تصنيف تحت إشراف التعلم الآلي بمافي ذلك 
.DLN‏ 


Destination 


Source 
a © 


تم تصميم خوارزمية ETL DNA‏ الجديدة التالية وتطويرها واختبارها باستخدام العديد من مجموعات 
بيانات الجيثوم. 


1. تنظيف مجموعة بيانات تسلسل الحمض ETL ggg‏ 

بالنسبة لعملية ETL‏ الأولية هذه افتح ملف مجموعة البيانات الأصلي 
"splice junction dna sequence original.csv"‏ » وقم بتطبيق تسلسل DNA‏ الذي يقوم 
puel‏ التحقق "m‏ الصريدة ET cit eias‏ 
"splice junction dna sequence cleanup.csv"‏ فما يلي الدالة الأولى ‏ " 


." dna sequence cleanup csv pathO 


def etl dna sequence cleanup(dna sequence original csv path, 
dna sequence cleanup csv path, dna sequence columns list): 
"""splice junction dna sequence original data preprocessing to 
create a 
new splice junction dna sequence cleanup data csv file 
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args: 
dna sequence original csv path (string): dna sequence 
original csv path 
dna sequence cleanup csv path (string): dna sequence cleanup 
csv path 
dna sequence columns list (list): list example ["dna class", 
"dna sequence"] 
return: None 
non ow 
result - False 
UI 
df genomics original - PyDNA.pandas read data("CSV", 
dna sequence original csv path, None) 
df genomics original.dropna(how-"all", inplace-True) 
print ("DNA sequence original data frame shape:\n{} 
".format(df genomics original.shape)) 
Caa elass List = [I 
dna sequence list = [] 
for row in df genomics original.itertuples(): 
dna class > row. dna class 
dna sequence - row.dna sequence 
is dna result - PyDNA.is dna(dna sequence) 
abit lg Cna FeSULE == LEWES 
dna class list.append(dna class) 
dna sequence list.append(dna sequence) 
df genomics cleanup - pd.DataFrame(list(zip(dna class list, 
dna sequence list)), columns-dna sequence columns list) 
print("DNA sequence cleanup data frame 
shape:\n{}". format (df genomics cleanup.shape)) 
total remove rows = df genomics original.shape[0] - 
df genomics cleanup.shape[0] 
print("DNA sequence original total remove 
rows:\n{}". format (total remove rows)) 


df genomics cleanup.to csv(path or buf-dna sequence cleanup csv path 
, index-False) 
print("DNA sequence cleanup csv file 
created: Nn()".format(dna sequence cleanup csv path)) 
result - True 
except 
print(PyDNA.get exception info()) 
غك‎ SADNA GPP 5د‎ log: EVONAwEIEe IOS FIle 007 
PyDNA.get exception info()) 
return result 


تمرير المعلمات واستدعاء كود الدالة. 


csv path folder > r"Ncsv folder path" 

dna sequence original csv path - os.path.join(csv path folder, 
"splh'cesgyunctionsdnawsecquencemoriguvnadlsesw) 

dna sequence cleanup csv path - os.path.join(csv path folder, 
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"splice junction dna sequence cleanup.csv") 

dna sequence columns list - ["dna class", "dna sequence"] 

result > etl dna sequence cleanup(dna sequence original csv path, 
dna sequence cleanup csv path, dna sequence columns list) 

print (result) 


النتائج: 


DNA sequence original data frame shape: 

(S100, 2 

DNA sequence cleanup data frame shape: 

(Sg. 2) 

DNA sequence original total remove rows: 

21 

DNA sequence cleanup csv file created: 

Ncsv folder path'Nsplice junction dna sequence cleanup.csv 
True 


كما 035« ol‏ اول ETL ihe‏ تزيل 21 ue‏ من الملف الأصلى لتسلسل الحمض النووي. إلى 
مخطط تسلسل الحمض النووي الجديد غير المتوازن لحدود الفتات. 


Splice-junction DNA Gene Sequences 
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800 765 
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Count 


El 


Imbalanced DNA Class Boundaries 


e 


بالنسبة إلى فئة ET"‏ تمت إزالة صفوف 5 و 3 صفوف لفتة "18" و 13 Ġo‏ لفئة "N"‏ أول عملية 
تنظيف ETL‏ جيدة Ío‏ 
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2. ترميز تسمية مجموعة بيانات تسلسل الحمض النووى ETL‏ 

تستخدم ETL ihe‏ الثانية الدالة " etl dna sequence label encoderO‏ " لإنشاء الملف 
"splice junction dna sequence labelencoder.csv‏ تقوم هذه الدالة بتحويل كل صف 
سلسلة تسلسل DNA‏ إلى مشفر تسمية label encoder‏ عادي باستخدام مكتبة  .PyDNA‏ 
data frame label encoder (dna numpy array)‏ طريقة API‏ المتوفرةفي تطبيق خوارزميات 
ال ای را ا فف راتات الا ` 

تمرير المعلمات وامقدعاء كرد الدالة. 


csv path folder = r"Ncsv folder path" 

dna sequence cleanup csv path - os.path.join(csv path folder, 
"splice junction dna sequence cleanup.csv") 

dna sequence labelencoder csv path - os.path.join(csv path folder, 
"splice junction dna sequence labelencoder.csv") 

result = 

etl dna sequence label encoder(dna sequence cleanup csv path, 
dna sequence labelencoder csv path) 

print (result) 


DNA sequence cleanup data frame shape: 
(S1697 2 

DNA sequence label encoder data frame shape: 
(S199, GL) 


DNA sequence label encoder csv file created: 
Ncsv folder pathNsplice junction dna sequence labelencoder.csv 
True 


فيما يلي أول 10 صفوف من صف EI"‏ 


ان لقو قا قم الى لون لمان lO Lge‏ لمك وك Up‏ نورك ملام 3515071 1535254507 1551550527 م للها 
Ir2‏ ورلا ولت مقن لمان لل لك 2p‏ ا ررق مطل مقي لك بطل 2.25725 0 l rO‏ يطل ملقم قي 9p‏ 0 
EI,0,2,0,1,1,1,2,1,1,2,2,2,0,2,2,1,2,2,0,2,2,0,1,1,3,2,1,0,2,2,2,3,2‏ 
0,2,1,1,1,1,0,1,1,2,1,1,1,1,3,1,1,2,3,2,1,1,1,1,1,2,1; 
31,2,0,2,2,9,2,050,252,051,25,9,1,51535,9,1,5151,5150;25250,2,1,1,2,2,3,2 
0,2,0,0,2,1,2,1,0,2,3,1,2,2,2,2,2,1,0,1,2,2,2,2,0,3,2; 
EI,2,2,2,1,3,2,1,2,3,3,2,1,3,2,2,3,1,0,1,0,3,3,1,1,3,2,2,1,0,2,2,3,0‏ 
73,2,2,2,2,1,2,2,2,2,1,3,3,2,1,3,1,2,2,3,3,3,3,1,1,1,1 
IE, 25153517005 251.51 51,151,707 2525.35 1,0515 1.5150527527507051535250515,25352‏ 
95151,1,1,0.951517152252515151523555;250,715171,9 5205259525 
0 ا 9595 1.5 Im 150052705 1.5 9n Z5 2nd O lp 07051 2070/1707 1L.‏ 
2525251515050522715975150525072520;71.15051.7052 ,520525052505 
Im 1L db. So orogr Upar 2r 0n L072 150-1 51.0507 2505052295259 261.5052527.370‏ 
gdpdpsSpdplsl15051,1.9,5,2521,;1515;352525952525;151525171.50‏ 
IE 515151, 951525352515 25259515425051525051.2150507522051 5150,25152525352‏ 
50525151505:152,2522515052,25,1515,252529p2p95p.pdp9pepgdgdpd.‏ 
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111111777 
1 ,3,1 ,8,1,1,1,9,9,1,3,1,1,0,2 مقر ,371,1 Og,‏ 
OO 22‏ 9,150,015 رقم قي 1 متم ولا AA‏ ,0,150572 ,2,1,9,2 ,315,00 
A‏ ,5(0,2,1,1,0,2,2,0,2,8,1,2,2,2,9,9,2,9,0,9,2,2,9,92,0 


ETL DNA Sequence Dataset SMOTE .3‏ 
تستخدم ETL ihe‏ الثالثة الدالة etl dna sequence label encoder smoteO"‏ " لإنشاء 
الملف "splice junction dna sequence labelencoder smote.csv"‏ تستخدم هذه الدالة 
خوارزمية تقنية زيادة عينات الأقليات الاصطناعية (SMOTE)‏ لموازنة جميع فتات الشجرة إلى 1.642 
صفًا. يجب أن يكون إجمالي الصفوففي مجموعة البيانات هذه الآن 1642 × 3 = 4926 كما ترى elal‏ 

من حساب JS S‏ إطار بيانات .SSMOTE‏ 


تمرير المعلمات واستدعاء كود الدالة. 


csv path folder > r"Ncsv folder path" 

dna sequence labelencoder csv path - os.path.join(csv path folder, 
"splice junction dna sequence labelencoder.csv") 

dna sequence labelencoder smote csv path - 
os.path.join(csv path folder, 

"splice junction dna sequence labelencoder smote.csv") 

dna sequence size - 60 

pest 

etl dna sequence label encoder smote(dna sequence labelencoder csv p 
ath, dna sequence labelencoder smote csv path, dna sequence size) 
print (result) 


DNA sequence label encoder data frame shape: 
(ode GL) 

DNA sequence SMOTE data frame shape: 

(AZO, OL) 


DNA sequence smote csv file created: 
Ncsv folder path\splice junction dna sequence labelencoder smote.csv 
True 


تم 35 طريقة PYDNA. balance class smote(X, y)‏ .ن مقالة( تصنيف التعبير الجيني RNA-‏ 
Seq‏ باستخدام خوارزميات التعلم الآلي). يظهر أدناه مخطط الحدود المتوازنة لفئات الحمض النووي 
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Splice-junction Balanced DNA Sequences 
1642 1642 1642 
اع‎ IE N 
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4. مجموعة بيانات تسلسل الحمض النووى ETL‏ المعالجة مسبقا لشبكات التعلم 


العميق 
تستخدم ETL ike‏ الرابعة الدالة " etl dna sequence final dinO‏ " لإنشاء الملف 


"splice junction. dna sequence final dln.csv"‏ هذه العملية تحول مشفر التسمية تسلسل 
الحمض النووي مرة أخرى إلى سلسلة تسلسل الحمض النووي. تم استخدام طريقة API‏ 
PyDNA.dna labelencoder to sequence string CX)‏ لذلك. 


تمرير المعلمات واستدعاء كود الدالة. 


dna sequence labelencoder smote csv path - 
os.path.join(csv path folder, 

"splice junction dna sequence labelencoder smote.csv") 

dna sequence final to dln csv path - os.path.join(csv path folder, 
"splice junction dna sequence final to dln.csv") 

dna sequence size - 60 

pesi 

etl dna sequence final dln(dna sequence labelencoder smote csv path, 
dna sequence final to dln csv path, dna sequence size) 

print (result) 


النتائج: 


DNA sequence SMOTE data frame shape: 
(4926, 61) 

DNA sequence DLN data frame shape: 
(2192/67882) 
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file created: 


DNA sequence DLN csv 


Ncsv folder pathNsplice junction dna sequence final to dln.csv 


True 


الآن لدينا مجموعة بيانات تسلسل DNA‏ صالحة وكاملةء يمكننا استخدام أي من خوارزميات DLN‏ 


فيما يلي 10 أمثلة للصفوف £3 EI"‏ 


dna class,dna sequence 


EI,GAGGTGAAGGACGTCCTTCCCCAGGAGCCGGTGAGAAGCGCAGTCGGGGGCACGGGGATG 
EI,GGGCTGCGTTGCTGGTCACATTCCTGGCAGGTATGGGGCGGGGCTTGCTCGGTTTTCCCC 
EI,GCTCAGCCCCCAGGTCACCCAGGAACTGACGTGAGTGTCCCCATCCCGGCCCTTGACCCT 
EI,CAGACTGGGTGGACAACAAAACCTTCAGCGGTAAGAGAGGGCCAAGCTCAGAGACCACAG 
EI,CCTTTGAGGACAGCACCAAGAAGTGTGCAGGTACGTTCCCACCTGCCCTGGTGGCCGCCA 
EI,CCCTCGTGCGGTCCACGACCAAGACCAGCGGTGAGCCACGGGCAGGCCGGGGTCGTGGGG 
EI,TGGCGACTACGGCGCGGAGGCCCTGGAGAGGTGAGGACCCTCCTGTCCCTGCTCCAGTCC 
EI,AAGCTGACAGTGGACCCGGTCAACTTCAAGGTGAGCCAGGAGTCGGGTGGGAGGGTGAGA 


EI,TGGCGACTACGGCGCGGAGGCCCTGGAGAGGTGAGGACCCTGGTATCCCTGCTGCCAGTC 
EI,AAGCTGAGAGTGGACCCTGTCAACTTCAAGGTGAGCCACCAGTCGGGTGGGGAGGGTGAG 


5. تنظيف مجموعة البيانات النهائية لتسلسل الحمض النووي ETL‏ 
أوصي بتطبيق أول عملية ETL‏ لتسلسل الحمض النووي مرة أخرى للتأكد من أن لدينا مجموعة بيانات 


talo‏ اة 


تمرير المعلمات واستدعاء كود الدالة. 


csv path folder > r"Ncsv folder path" 
dna sequence original csv path - os.path.join(csv path folder, 
Splice Junction hne Sequence imas Cim esw”) 


dna sequence cleanup csv path = os.path.join(csv path folder, 


splice junction dna sequence final cim cleanup.csv") 

dna sequence columns list - ["dna class", "dna sequence"] 

result > etl dna sequence cleanup(dna sequence original csv path, 
dna sequence cleanup csv path, dna sequence columns list) 


النتائح: 
e‏ 
LN data frame shape:‏ 
LN cleanup data frame shape:‏ 


file created: 


print (result) 


DNA sequence final DI 
(4926, 2) 
DNA sequence final DI 
(4926, 2) 

DNA sequence DEN csv 


Ncsv folder pathNsplice junction dna sequence final to dln cleanup.c 


Sv 
True 
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معالجة البيانات الكاملة لتسلسل الحمض ETL ,599Jl‏ 
يوجد أدناه كود عملية خط أنابيب بيانات تسلسل DNA ETL‏ بالكامل. 


# 1. ETL DNA Sequence Cleanup 
csv path folder = r"G: NVisual 
WWWNPythonN1000 python workspace NMbushnell ml ai project'*cvs2" 
dna sequence original csv path - os.path.join(csv path folder, 
"splice junction dna sequence original.csv") 
dna sequence cleanup csv path - os.path.join(csv path folder, 
Uspilicesuncidongdragsecdquencemelednmupsesvi) 
dna sequence columns list - ["dna class", "dna sequence"] 
result > etl dna sequence cleanup(dna sequence original csv path, 
dna sequence cleanup csv path, dna sequence columns list) 
print ("1. ETL DNA Sequence Cleanup: {}". format (result) ) 
E result == els 

exit () 


# 2. ETL DNA Sequence Label Encoder 

# csv path folder = r"G:\Visual 
WWW\Python\1000 python workspace\bushnell ml ai project'cvs" 

dna sequence cleanup csv path - os.path.join(csv path folder, 
"splice junction dna sequence cleanup.csv") 

dna sequence labelencoder csv path - os.path.join(csv path folder, 
"splice junction dna sequence labelencoder.csv") 


Teswir = 
etl dna sequence label encoder(dna sequence cleanup csv path, 
dna sequence labelencoder csv path) 
print("2. ETL DNA Sequence Label Encoder: {}". format (result) ) 
if result -- Fals 

exit() 


4 3. ETL DNA Sequence SMOTE 

* csv path folder = r"G: NWisual 
WWWNPythonN1000 python workspaceNbushnell ml ai project'cvs" 
dna sequence labelencoder csv path - os.path.join(csv path folder, 
"splice junction dna sequence labelencoder.csv") 

dna sequence labelencoder smote csv path - 
os.path.join(csv path folder, 

"splice junction dna sequence labelencoder smote.csv") 


dna sequence size - 60 
result = 
etl dna sequence label encoder smote(dna sequence labelencoder csv p 
ath, dna sequence labelencoder smote csv path, dna sequence size) 
print("3. ETL DNA Sequence SMOTE: {}". format (result)) 
if result -- Fals 

exit() 


# 4. ETL DNA Sequence Final DIN 
î csv path folder = r"G:NVisual 
WWWNPythonN1000 python workspaceNbushnell ml ai project'cvs" 
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dna sequence labelencoder smote csv path - 
os.path.join(csv path folder, 
"splice junction dna sequence labelencoder smote.csv") 
dna sequence final to dln csv path - os.path.join(csv path folder, 
"splice junction dna sequence final to dln.csv") 
dna sequence size - 60 
ieu = 
etl dna sequence final dln(dna sequence labelencoder smote csv path, 
dna sequence final to dln csv path, dna sequence size) 
print("4. ETL DNA Sequence Final DIN: {}". format (result) ) 
if result == Fals 
exit () 


# 5. ETL DNA Sequence Final DLN Cleanup 
# csv path folder = r"G:\Visual 
WWWNPythonN1000 python workspace\bushnell ml ai project\cvs" 
dna sequence final to dln csv path - os.path.join(csv path folder, 
Uspiliicesgunciiongdramsecquencem final EO QIN e svi) 
dna sequence final to dln cleanup csv path - 
os.path.join(csv path folder, 
Sollee Junction Cne Sequence Finel to Cim clsanwo ESN) 
dna Sequenee Columns list = [tcra Classi Ona SedUeNEe 
ie Su 
etl dna sequence cleanup(dna sequence final to dln csv path, 
dna sequence final to dln cleanup csv path, 
dna sequence columns list) 
print("5. ETL DNA Sequence Final DEN Cleanup: ([(j".format(result)) 
if result -- Fals 
exit() 


تطبيق الشبكات العصبية التلافيفية على مجموعات بيانات الفثات غير المتوازنة 
والمتوازنة في تسلسل الحمض النووي 

في ورقة تطبيق موارؤميات التعلم الآلى cias‏ يانات الجينوع. ثم تطبيق Ia gi‏ الشبكات العصيية 
التلافيفية (CNN)‏ للتنبؤ بتسلسل الحمض النووي المرتبط بالبروتين. بالنسبة إلى مجموعة بيانات 
splice-junction‏ لديناء فلنکتشف كيف يعمل نموذج CNN‏ مع الفتات غير المتوازنة والمتوازنةفي 
تسلسل الحمض النووي. فيما يلي نائج الفثات غير gjg‏ ملف بو 


"m 


splice junction dna sequence cleanup.csv 


Model: "sequential" 


Layer (type) Output Shape Param # 
convid (Convi1D) (None, 49, 32) 1568 
max poolingid (MaxPoolingilD) (None, 12, 32) 0 
flatten (Flatten) (None, 384) 0 
dense (Dense) (None, 16) 6160 

( 


dense 1 (Dense) None, 3) SIl 
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Total params: 7,779 
Trainable params: 7,779 
Non-trainable params: O0 


Model Validation 

10/10 [ ] - 0s 2ms/step 
valid accuracy score: 

95/584 


valid precision: 
95.686 


valid recall: 
55750 


valid El 555 
95.544 


valid confusion matrix: 
I 75 0 Li 

L 2 8 i 

LI 3 t 3599] 


valid classification report: 
precision recall fl-score support 


0 0.94 099 0.96 76 
1 0:299 0.88 (M59) ag) 
2 095 098 0236 164 
accuracy (004916 Sly) 
macro avg 0- SG 0S5 0.95 Su 7) 
weighted avg 01296 0.96 0.96 Siy 
odel Test 
LOLO f ] - 0s 1ms/step 
test accuracy score: 


9552 6) 


test precision: 
95336 


test recall: 
OE 


test fl score: 
95 LEL 


test confusion matrix: 
IC 75 0 LI 

LX 65 3] 

dL 2 150621] 


123 


بالنسبة للفتات 


Param # 


1568 
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support 
76 
76 
11:5 
3L y 
Sul T) 
SL 7 


test classification report: 


precision 


94 
9p 


o 99 


o 9 
TOS 


frame.DataFrame'> 


07 to Q 


S, 


Qs 
0 
0 


0 

1 

2 
accuracy 
macro avg 
weighted avg 


Model One Test 


<class 'pandas.core. 
RangeIndex: 1 entri 
Data columns (total 1 columns): 


Non-Null Count 


recall  fl-score 
(0) G9] 0) 9$ 
0.86 O Gl 
0/298 (9). 917] 
(0). 35) 
0.94 095 
0. 95 0. 95 
Dtype 
object 


] - 0s 86ms/step 


المتوازنة 


لتسلسل 


Shape 
497 9520 
JL22 SANN 
384( 

16) 

3) 


- 0s 3ms/step 


Output 


(None, 
(None, 
(None, 
(None, 
(None, 


] 


للج ممه L‏ 


# Column 


0 dna sequence 
dtypes: object (1) 


memory usage: 136.04 bytes 


الحمض 


1 


JA f 
Class Predictive: 


CSV ملف‎ TERES 
تظهر النتائج أدناه.‎ "splice junction dna sequence final to dln cleanup.csv 


Model: "sequential" 


Layer (type) 


convid (Convi1D) 


max poolingid (MaxPoolinglD 


togel paransi 1757175 


NS 
Non-trainable params: 


0 


flatten (Flatten) 
dense (Dense) 
dense 1 (Dense) 


m 


'rainable params: 


Model Validation 
157/1 [I 


valid accuracy score: 


95g 132 


valid precision: 
955746 


valid recall: 
95s 7312, 


7( المعالجة المسبقة لتسلسل DNA‏ المتقدم لشبكات التعلم العميق 


EEO‏ لع ل الطلدن 
HIS‏ 55 


valid confusion matrix: 
IEEE) 3 4] 

] 3 156 5 

] 4 2 Sol 


valid classification report: 
precision recall fil-score support 


0 0 0), 96 0.96 164 
1 (RIOT) 0)., 955 © 6 164 
2 0) 5 0 OG 0). 95 164 
accuracy 0.96 492 
macro avg 02636 096 096 492 
weighted avg (PISIS 096 (PIOIG 492 
odel Test 
12616 i ] - 0s 2ms/step 
test accuracy score: 
SSA 


test precision: 
97 S19 


test recall: 
1A 


test fl score: 
GTa LE 


test confusion matrix: 
IE ERE E 0 3] 

] 1 156 6] 

] d 3 LaL] 


test classification report: 
precision recall fil-score support 


0 (E299 0.98 0.98 164 

1 (EOS OG omor 163 

2 095 096 096 165 

OE UIE TEY 00 42 
macro avg (PSO OOT (0). 97 492 
weighted avg (0) o, € y Oa S7 Oa ST 492 


Model One Test 
«class 'pandas.core.frame.DataFrame'» 
RangeIndex: 1 entries, 0 to 0 
Data columns (total 1 columns): 
# Column Non-Null Count Dtype 
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0 dna sequence Û non-null object 

dtypes: object (1) 

memory usage: 136.0-* bytes 

i/i p ] - 0s 58ms/step 
Class Predictive: 1 


استنادًا إلى نتائج CNN‏ المذكورة ced‏ يمكننا أن نرى درجة دقة اختبار أفضل بنسبة 97.1 / مع 
مجموعة بيانات فئات متوازنة لتسلسل الحمض النووي مقارنة بالفتات غير المتوازنة 95.2 /. آمل أن 
تفهم سبب وجوب موازنة DE‏ مجموعات بيانات تسلسل الحمض النووي قبل تطبيق أي خوارزميات 
217 إنها مهمة Gli‏ المستقبل. 
الاستنتاجات 
1. لتطبيق أي خوارزميات التعلم العميق على مجموعات بيانات تسلسل الحمض النووي» يلزم 
التحقق التالي: 
o‏ يجب أن تحتوي سلسلة تسلسل الحمض النووي على الأحرف النوكليوتيدية الأربعة الرئيسية 
۸ و0 و T‏ فقط. أي حرف آخرفي سلسلة التسلسل سينشئ عمودًا adm‏ عند تحويله 
إلى مشفر واحد ساخن. 
e‏ يجب أن تحتوي سلسلة تسلسل الحمض النووي على جميع النوكليوتيدات الأربعة الرئيسية 
حرف ۸ و0 و 6 و'1. أي حرف مفقودفي سلسلة التسلسل سيقلل من كمية الأعمدة عند 
تحويلها إلى مشفر واحد ساخن. 
2. لتوليد بيانات تسلسل الحمض النووي التركيبةء تم اقتراح عملية خط أنابيب ETL‏ لزيادة بيانات 
التدريب / التحقق من الصحة وحل مشاكل الفتات غير المتوازنةفي التسمية. 
3. يحسن حل مشاكل الفئات غير المتوازنة التسميةفي مجموعات بيانات تسلسل الحمض النووي 
أداء نماذج تصنيف شبكات التعلم العميق. يجب أن يكون هذا Clas‏ ضروريًا لأي مشروع 
تصنيف وانحدار وتجميع لتسلسل DNA‏ باستخدام التعلم الآلي. 
المصدر: 


https://ernest-bonat.medium.com/advanced- dna-sequences-preprocessing- 
for-deep-learning-networks-9bf294c19d08 
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8( التعلم العميق على الحمض النووى القديم Deep Learning on‏ 
Ancient DNA‏ 

(إعادة بناء الماضي البشري بالتعلم العميق] 
الحمض النووي القديم Ancient DNA‏ رائع! مع التطورات الحاليةفي تسلسل الجيل التالي Next‏ 
«Generation Sequencing (NGS)‏ يمكننا استخراج الحمض النووي DNA‏ من العظام القديمة 
ancient bones‏ وتسلسله وفهم الكثير عن الماضي من خلال أنواع مختلفة من التحليلات الإحصائية 
وعلم الوراثة السكانية .Population Genetics analyses‏ 


ومع ذلك. فإن التلوث الحديث modern contamination‏ يمثل مشكلة كبيرةفي مجال أبحاث 
الحمض النووي القديم. اعترف Svante Pääbo‏ مؤسس علم الحفريات القديمة .paleogenetics‏ 
أنه el‏ الغالب بتسلسل الحمض النووي الحديث modern DNA‏ (على الأرجح ملكه)ني عمله 
sal‏ حول الحمى النووي من مومياء مصرية cool‏ إلى .هذا الميجال:ي o as cell‏ النظر إلى 
التسلسلات الحديثة والقديمة» لن تخمن Dl‏ أيها جاء من الماضي. WI‏ يستخدم الباحثونفي هذا 
المجال oc‏ إحصائيًا متقدمًا مثل استدلال نمط ازالة الحامض الاميني deamination pattern‏ 
inference‏ حيث تكون أداة mapDamage‏ مفيدة جداً. ومع ذلك. فإن مشكلة تحليل ازالة الحامض 
الأمينى deamination analysis‏ تکمنفي أنه يعتمد على المتوسط عبر الآلاف والملايين من 
cod‏ المتوافقة» وبالتالي يكون ذلك ممكتا فقط إذا كان لديك عينة متسلسلة بعمق (هناك حاجة 
إلى الكثير ن الحمفن التووي القديم) egets)‏ مرجعي لليخصول على cables ciel‏ مع edi‏ 
الذي لا يتوفر دائمًا. 

هذا هو بالضبط المكان الذي يمكننا فيه الاستفادة من قوة التعلم الآلي والعميق لاكتشاف أشكال 
الحمض النووي النموذجية للتسلسلات القديمة والحديثة. 


التعلم العميق لعلم الجينوم 

نظرًا oM‏ تسلسل الحمض النووي هوني الأساس "نص بيولوجي C biological text‏ فيمكن تحليله 
باستخدام مناهج من معالجة اللغة الطبيعية Natural Language Processing‏ أو تحليل بيانات 
السلاسل الزمنية Time Series data analysis‏ . تستخدم الشبكات العصبية الاصطناعية Artificial‏ 
Neural Networks (ANINs)‏ على نطاق واسعني كلا المجالين ANI m‏ متطورًا لعلم الجينوم 
Genomics‏ أيضا. على سبيل المثال. الشبكات العصبية التلافيفية Convolutional Neural‏ 
Networks (CNN)‏ هي خيول gible‏ علم الجينوم الوظيفي «functional Genomics‏ انظر 
على سبيل المثال. مراجعة ممتازة ل Molecular Systems Biology .Argenmueller et al.‏ 
2 )2016( 878( حيث اكتشفوا بدقة عالية مواقع ربط عامل النسخ transcription factor‏ 
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e CNN من أجل التنفيذ العملي لشبكات‎ -splicing sites ومواقع التوصيل‎ binding sites 
Zou et al. الرائع من‎ "A Primer on Deep Learning in Genomics" الجينوم أو صي ب‎ 
يوضح الشكل أدناه من الورقة سير عمل نموذجي‎ .)2019( pages12718 Nature Genetics 51 
لتعليم العميقني علم الجبنوم.‎ 


c Evaluate d Interpret 


Training 


RNN —o‏ جل 


Validation 


Ly 
2 


[s] [e] [33 [33‏ 33[ لها لها لها 


> 
D 
oO 
o 
o 


© Internal unit @ Output 


(2019) pages12—18 .Zou et al. Nature Genetics 51 لعلم الجينوم من‎ CNN 
للتنبؤ لكل تسلسل للحالة‎ (CNN) أعرض هنا كيفية بناء مصنف قائم على الشبكة العصبية التلافيفية‎ 
القديمة لتسلسل الحمض النووي دون تعيين الجينوم المرجعي. لكن دعونا نبدأ بالنظرفي تسلسل‎ 

الحمض النووي القديم. 


النظر في تسلسل الحمض النووي القديم 
لأغراض العرض التوضيحي» سأستخدم مسودة جينوم الإنسان البدائي draft Neanderthal‏ 
genome‏ وهو جهد تسلسل منخفض التغطية يعود إلى عام 2010. الملف عبارة عن تراصف 
alignment‏ (ملف بام (bam-file‏ لتسلسلات الحمض النووي لجينوم بشري 1518 . ولكن لا يجب 
أن يكون كذلك تراصف . يمكننا استخدام التسلسلات الأولية بشكل جيد (ملف .(fastq‏ يمكننا قراءة 
التسلسلاتفي elJ2 Python‏ وحدة pysam‏ سهلة الاستخدام ورسم توزيع أطوال التسلسلات. 
import oS‏ 
import pysam‏ 


import numpy as np 
os.chdir('/media/nikolay/My Book Duo/AncientDNA/') 


# Read Bam or Fastq file (it does not have to be Bam) 
neand = pysam.AlignmentFile("Neandertal.bam", "rb") 


# Record length of each DNA sequence 
iter - neand.fetch("chr1", 0, 249000000) 
neand lengths - [] 
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FOE 3L ال‎ LESES 
neand lengths.append(i.infer query length()) 


4 Plot distribution of DNA read lengths 
import seaborn as sns 

import matplotlib.pyplot as plt 
plt.figure(figsize-(20,15)) 
sns.distplot(neand lengths) 

plt.show() 


Distribution of Ancient Sequence Lengths 


0 
SEQUENCE LENGTH 


من الواضح أن هناك انتشارًا واسعًا لأطوال تسلسل الحمض النووي من حوالي 20 نيوكليوتيد 10( إلى 
تسلسل طويل بطول 140 nt‏ (يقرأ بلغة المعلوماتية الحيوية). هذه حقيقة معروفة تخبرنا أن الحمض 
النووي القديم يتحلل degraded‏ أي يتكسر مع الوقت إلى أجزاء صغيرة. لذلك يمكن أن يكون طول 
التسلسل مفيد للغاية لاستنتاج ما إذا كان قديمًا أم لاء فكلما كان أقصر كلما alj‏ احتمال كونه قديمًا. 
ومع ذلك في هذا التحليل» أنا مهتم بشكل خاص بنقشات motifs‏ الحمض النووي القديمة بغض النظر 
عن طول التسلسل. لذلك سأقوم بتحليل التسلسلات القديمة والحديثة الطويلة على حد سواء وأترك 
معلومات طول التسلسل كمكافأة ممتعة يمكن للجميع استخدامها بالإضافة إلى معلومات النمط القديم. 
نظرًا لأنني سأستخدم عينة الحمض النووي الفرنسية الحديثة التي تم تسلسلهاني عام 2010 بطول قراءة 
يساوي 76 «nt‏ سأختار فقط 76 nt‏ من متواليات الإنسان البدائي Neanderthal‏ طويلة ثم كمية 
متساوية من التسلسلات الحديثة لتدريب CNN‏ الخاص بي. 


# Extract 76 nt ancient DNA 8 
neand seqs - [] 
ipe J um rance (UL ia 
iter - neand.fetch('chr' -* str(j)) 
EOE L boy LESTE 
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E taimer دعنك‎ EAE) == 763 
S = str(i.get forward sequence ()) 
iE 5 COURE (( 5ك كك )2:00 زاك‎ eote ) © )) 2:0) cue. Tio exeXbade GLO 
amel E. COLAC (UD) 50) EO ME MoE Ln S5 
neand seqs.append(i.get forward sequence ()) 


# Read modern DNA sample 


modern - 

pysam.AlignmentFile("/home/nikolay/WABI/Misc/AncientDNA/French.bam" 
Used esu ) 

modernisegs =N 


EOE J in cawe Gyi : 
iter - modern.fetch("chr" -* str(j)) 
ESE L boy ECF 
abb Men 0115622 segs) == hex اوعس‎ SESS) s 
break 
else: 
S = SEE (4 germeorwandsgesegquenee 
E 5 COUME AZO ARGS 5 جين مت‎ CI ZOU كت‎ (s رمك‎ 2 (t (6) 9:0) 
amel SCONE (40 249) ual VIN" mog ia S3 
modern seqs.append(i.get forward sequence()) 
Sequences = neand seqs -* modern seqs 
labels = SERS One Senne and Sega) NE 
list(np.zeros(len(modern seqs))) 


في المجموع» حصلنا على ما يقرب من نصف مليون قراءة» 7.50 منها قديمة. من أجل البساطةء اخترت 
ما يقرأ فقط من أول 10 كروموسومات. هذه الكمية من البيانات كبيرة G>‏ مقارنة بحوالي 60000 
مثال من مجموعات CIFAR10; MNIST obh‏ للتعلم الآلي المستخدمة على نطاق واسع 
لممارسة التعرف على الصور باستخدام شبكات CNN‏ 


تحضير بيانات الجينوم لشبكة CNN‏ 

بعد ذلك. سنقوم بإجراء قياسي لجميع خطوات 0101115 أحادية الأبعاد مثل ترميز التسلسلات الواحد 
ساخن one-hot encoding‏ وتقسيم البيانات إلى مجموعات فرعية للتدريب والاختبار. هنا سأتبع 
البروتوكول من )2019( Zou et al. Nature Genetics 51, pages12—18‏ : 


from sklearn.preprocessing import LabelEncoder, OneHotEncoder 


# One-hot encode Sequences 

integer encoder = LabelEncoder () 

one hot encoder - OneHotEncoder() 

Hayne Features = [] 

for sequence in sequences: 
integer encoded = integer encoder.fit transform(list (sequence)) 
integer encoded - np.array(integer encoded).reshape(-1, 1) 
one hot encoded - one hot encoder.fit transform(integer encoded) 
input features.append(one hot encoded.toarray()) 


np.set printoptions (threshold-40) 
input features = np.stack(input features) 
pound EampleSseduenceiUmmmm 255525-5-555 ينا‎ 
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print('DNA Sequence £1:Mn',sequences[0][:10],'...', 52522601] 
EOD 
print ('One hot encoding of Sequence #l1:\n',input features[0].T) 


4 One-hot encode Labels 

one hot encoder - OneHotEncoder() 

labels = np.array(labels).reshape(-1, 1) 

input labels - one hot encoder.fit transform(labels).toarray() 
print('Labels:Mn',labels.T) 

print('One-hot encoded labels: Nn',input labels.T) 


from sklearn.model selection import train test split 
train features, test features, train labels, test labels - 
Ereim S SP E 

input features, input labels, test size-0.25, random state-42) 


الآن كل شيء جاهز لتنفيذ CNN‏ فلنقم بذلك! 


بناء وتنفيذ مصنف CNN‏ احادي البعد 

eel‏ حان الوقت لبدء تدريب مصنف ثنائي بسيط 1D CNN‏ (قديم ancient‏ مقابل غير قديم 
.(non-ancient‏ سوف أقوم بصنع i‏ بسيطة من AES‏ واحدة تشبه VGG‏ مع طبقتين تلافيفيتين 
متبوعة بطبقة Max Pooling‏ واحدة. سأطبق أيضًا تنظيمًا صغيرًا لوزن معيار L1‏ لمنع الضبط الزائد 
.overfitting‏ 


from keras.optimizers import SGD, Adam, Adadelta 

from keras.layers import Conv1D, Dense, MaxPoolinglD, Flatten 
from keras.models import Sequential 

from keras.regularizers import 12, 11 


model = Sequential )( 
model zevelel(etoxssdUD (Grand euesy = S02, kernel size = 5; j9exelehbae; = "sine". 
Cerne nie lalize E = Me UME OEM, 
input shape-(train features.shape[1], 4), 
activation = 'relu', 
kernel regularizer-12(0.001))) 
model .eveleltetosssdUD (Grarl ues) = S02, kernel size = 5, addin = "sens". 
Kennel 221 11911262 = Me OTT, 
activation = 'relu', 
kernel regularizer-12(0.001))) 


model.add(MaxPoolinglD(pool size - 2)) 


model.add(Flatten()) 

model.add(Dense(16, kernel initializer- 'he uniform', activation - 
'relu', 

Kennel 5 وت‎ 11 21 vega o» 00 OOD) 

model.add(Dense(2, activation-'softmax')) 


epochs - 200 
lrate = 0.001 
decay = lrate / epochs 
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SGD(lr = lrate, momentum = 0.9, decay = decay, nesterov =‏ = موه 
False)‏ 

model.compile(loss-'binary crossentropy', optimizer-sgd, 
metrics-['binary accuracy']) 

model.summary() 


convld 29 input: InputLayer 


1D CNN لمصنف‎ VGG تشبه‎ à 


جهاز الكمبيوتر المحمول الخاص بي باستخدام 4 انوية. دعونا نتحقق من سلوك منحنيات الخطا loss‏ 
والدقة :accuracy‏ 


S Model Loss —— 
59 —— Train 


——- Validation 


0525 
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Model Accuracy 
osso 


—— Train 
——- Validation 


0835 


0830 


Accuracy 


0825 


oss 


0 5 0 5 E us 10 [77 EJ 


Epoch 


من الواضح أن النموذج غير مناسب ولكنه لا يزال يصل إلى 84 7 من الدقة المثيرة للإعجابفي مجموعة 
بيانات التحقق (حوالي 100000 تسلسل). يعتبر السلوك المتذبذب لمنحنيات التحقق من الصحة 
نموذجيًا لتنظيم معيار .(L1 norm regularization) L1‏ لجعلها أكثر استقرارّاء يفضل التسرب 
«Dropout‏ یمکننا Cal‏ زيادة حجم الدفعة batch size‏ أو تقليل معدل التعلم .learning rate‏ دعونا 
الآن نجري التقييم النهائي للنموذج على مجموعة بيانات الاختبار الثابتة مع ما يقرب من 133000 


تسلسل: 


from sklearn.metrics import confusion matrix 
import itertools 


plt.figure(figsize-(10,8)) 

predicted labels = model.predict(np.stack(test features)) 

cm = confusion matrix(np.argmax(test labels, axis-1), 
np.argmax(predicted labels, axis-1)) 

print('Confusion matrix: NAL, CM) 


cm = cm.astype('float') / cm.sum(axis = 1)[:, np.newaxis] 

plt.imshow(cm, cmap-plt.cm.Blues) 

plt.title('Normalized confusion matrix') 

PE COO E Dae N) 

plt.xlabel('True labeli) 

plt.ylabel('Predicted label') 

jolis segs, 1y gle: vercek EQ. 31) 

joie s oj OO E V) 

for i, j in itertools.product(range (cm.shape[0]), 

range(cm.shape[1])): 

e EE S s EOE ENO, Il o2 y 

horizontalalignment-'center', 
color-'white' if cm[i, j] » 0.5 else 'black') 

plt.show() 
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Scores > model.evaluate(test features, test labels, verbose-0) 
print("Accuracy: $.2ft$5$'" $ (scores[1]*100)) 


Normalized confusion matrix 


Predicted label 


True label 


التقييم النهائي للنموذج يظهر مرة أخرى 84/ من دقة التنبؤ بالحالة القديمة. مصفوفة الارتباك 
confusion matrix‏ تؤكد هذا الرقم. ماذا عن PCNN pid‏ تعد خرائط Saliency‏ طريقة أنيقة 
لإثبات أهمية ميزات شبكة CNN‏ أي ما هي النيوكليوتيدات الأكثر إفادة للتنبؤ بالحالة القديمة لكل 
تسلسل: 

import keras.backend as K 


def compute salient bases(model, x): 
input tensors - [model.input] 
gradients - model.optimizer.get gradients (model.output[0][1], 
model.input) 
compute gradients - K.function(inputs - input tensors, outputs 
gradients) 


x value = np.expand dims (x, axis-0) 

gradients > compute gradients([x value]) [0][0] 

sal > np.clip(np.sum(np.multiply(gradients,x), axis-1),a min-0, 
. max-None) 

return sal 


w 


sequence index - 12 
K.set learning phase(1) #set learning phase 
sal = compute salient bases(model, input features[sequence index]) 


plt.figure(figsize-[1606,5]) 
barlist = plt.bar(np.arange(len(sal)), sal) 
BEE LSE ECS COLO (CUL) Eo ab in rence 9 9) 1 
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plt.xlabel('Bases') 

plt.ylabel('Magnitude of saliency values') 

plt.xticks (np.arange(len(sal)), list(sequences[sequence index])); 

plt.title('Saliency map for bases in one of the ancient sequences' 
' (orange indicates the informative bases in motif)'); 

plt.show() 


Saliency map for bases in one of the ancient sequences (orange indicates the informative bases in motif) 


نرى بوضوح أن الإشارة القديمة مقابل غير القديمة يبدو أنها تأتي من نهايات التسلسلات. هذا منطقي 
للغاية لأنه من المعروف أن نهايات التسلسلات القديمة تتعرض لإزالة الحامض الأميني وبالتالي تحلل 
مما يؤدي إلى زيادة تواتر تعدد الأشكال T‏ / © ول / في نهايات القراءات مقارنة بفرضية العدم 
null-hypothesis‏ من التردد الموزع بشكل موحد لجميع البدائل الأخرى. هذا ما يلتقطه 
mapDamage‏ ومع ذلك. على النقيض من cmapDamage‏ تمكنا من اكتشاف هذا النمط الخفي 
لإزالة الحامض الاميني دون مقارنة التسلسلات القديمة بالجينوم المرجعي. علاوة على ذلك لدينا الآن 
نموذج يتشا ب "القديم أو غير القديم' لكل قراءة بينما يستخدم mapDamage‏ الاستدلال الإحصائي 
statistical inference‏ من خلال حساب المتوسط عبر آلاف القراءات. 


Magnitude of saliency values 


dale‏ من الصعب جدًا استخراج الكثير من الحمض النووي القديم لذا OB‏ كل قراءة مهمة. بمعنى 
o2‏ لا يمكننا تحمل حساب الإحصائيات عبر عدد من القراءات ولكننا نريد حالة قديمة لكل قراءة 
قيمة. بالإضافة إلى ذلك De‏ ما يتوصل تحليل الميكروبيوم القديم ancient microbiome‏ 
(القراءات التي نشأت من الميكروبات القديمة بدلاً من المضيف البشري / الحيواني) إلى فيروسات 
قديمة تحتوي ble‏ على عشرات القراءات المتوافقة مع الجينوم الفيروسي الاير E‏ هذه الحالق 
من الصعب للغاية إجراء تحليل إزالة الحامض الأميني باستخدام mapDamage‏ بسبب نقص القوة 
الإحصائية Jack of statistical power‏ 


ألا قات 


هنا أوضح أهمية التعلم العميقني مجال أبحاث الحمض النووي القديم. لقد أوضحت كيفية إنشاء 
مصنف بسيط للشبكة العصبية التلافيفية (CNN)‏ للحالة القديمة مقابل الحالة غير القديمة لكل 
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تسلسز DNA‏ بدون جينوم مرجعي. آمل أن تجد هذا المنشور nw‏ وأن تحصل على مصدر إلهام 
لتطوير التعلم العميق لمنطقة أبحاث الحمض النووي القديمة المثيرة. تحقق من نوتبوك Jupyter‏ 
الكامل على github‏ الخاص بي. 


المصدر: 


https://towardsdatascience.com/deep-learning-on-ancient-dna- 


df042dc3c73d 
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Deep Learning for Single التعلم العميق لبيولوجيا الخلية المفردة‎ (9 
Cell Biology 

(حل البنى الخلوية عن طريق التعلم العميق) 
هذه هي المقالة الثانيةفي سلسلة التعلم العميق لعلوم الحياة -Deep Learning for Life Sciences‏ 
في السابق» أوضحت كيفية استخدام التعلم العميق Deep Learning‏ على الحمض النووي القديم 
Ancient DNA‏ حان الوقت اليوم للحديث عن كيف يمكن للتعلم العميق أن يساعد بيولوجيا الخلية 
Cell Biology‏ التقاط تنوع diversity‏ وتعقيد complexity‏ مجموعات الخلايا. 


أحدث تسلسل الحمض النووي الريبي أحادي الخلية Single Cell RNA sequencing‏ 
GcRUNAseq)‏ ثورةفي علوم الحياة قبل بضع سنوات من خلال تقديم دقة غير مسبوقة لدراسة التباين 
heterogeneity‏ مجموعات الخلايا. كان التأثير دراماتيكيًا لدرجة أن مجلة Science‏ أعلنت أن 
تقنية scRINAseq‏ هي الاختراق لعام 2018. كان التقدم الرئيسي هو إدراك أنه على الرغم من أن 
الخلايا البيولوجية قد تبدو متشابهة شكليّافي المجهرء إلا أنها يمكن أن تكون مختلفة جدا من حيث 
الجينات التي تعبر عنهاء والتي يؤدي بدوره إلى اختلافات وظيفية بين الخلايا. لالتقاط هذا التنوع 
الخلوي «cellular diversity‏ أعلن مجتمع Human Cell Atlas‏ عن هدف طموح لبناء خريطة 
شاملة لتريليونات الخلايا الموجودةفي جسم الإنسان. 


مع تطوير منصة التعبير الجيني gene expression‏ للخلية المفردة 10X Genomics‏ » أصبح من 
المعتاد تقريبًا الحصول على معلومات كاملة عن النسخ transcriptome information‏ من مئات 
الآلاف وحتى ملايين الخلايا الفردية. لذلك n) scRINAseq ob‏ إلى جنب مع التصوير الطبي 
الحيوي Biomedical Imaging‏ وعلم الجينوم (Genomics‏ تمثل Úll‏ بيانات كبيرة Ó>‏ تتمتع 
بقوة إحصائية فائقة وتفتح GUT‏ جديدة لتطبيق التعلم الآلي والعميق لتحليل بيانات الخلية المفردة 
-Single Cell data analysis‏ 

سأقدم هنا نظرة عامة موجزة عن الحقل» وصياغة التحديات التحليلية الرئيسية وإظهار RAS‏ استخدام 
التعلم العميق مع TensorFlow; Keras‏ لمشاكل التعلم غير الخاضعة للإشراف unsupervised‏ 
learning problems‏ تحليل بيانات تسلسل الحمض النووي الريبي أحادية الخلية single cell‏ 
.RNA sequencing data analysis‏ 


لماذا pici‏ البيولوجيا الخلية المفردة مثالية fo.Lc LU‏ العميق؟ 

عند إجراء تحليل إحصائي على بعض البيانات» يتعين علينا عادة فهم التوازن بين Å‏ عدد الميزات 
p (number of features)‏ (الجينات «genes‏ والبروتينات «proteins‏ والمتغيرات الجينية 
.genetic variants‏ بكسل الصورة pixel of an image‏ وما إلى 305(« و ب) عدد الملاحظات 
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sequences التسلسلات‎ «cells الخلايا‎ «samples (العينات‎ n (number of observations) 
م من جينات ترميز البروتينفي حين أن‎ = 20K إلخ.). يحتوي الجينوم البشري على ما يقرب من‎ 
وحيدة.‎ LA n 2M مجموعات بيانات 250121148356010 المنشورة مؤخرًا تتضمن 1.31/1 ^ 1 و‎ 
وهو حد نموذجي للتعلم العميق. أي بالعملفي هذا الحد‎ scRNAseq ل‎ n << p هذا يتضمن أن‎ 
QUAD والتقاط البنية غير الخطية‎ Linear Algebra يمكننا تجاوز التحليل القائم على الجبر الخطي‎ 

.scRNAseq بيانات‎ 


- nature 


Fig. 2: Identifying the major cell types of mouse organogenesis. 
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تشير الدراسات الحديثة إلى أحجام عينات غير مسبوقة من scRNAseq‏ والتي تعد إعدادًا مثاليًا 


للتعلم العميق 


بالنسبة للحدود الأخرىء أي عندما تكون م >> n‏ أو م ~ an‏ تكون الأطر الإحصائية البايزية والمتكررة 
Bayesian and Frequentist statistical frameworks‏ على التواليء أكثر ملاءمة. بعبارة أخرى. 
عند العمل مع بيانات sscRINAseq‏ لدينا مشكلة مهمة:في حين أن الضبط الزائد overfitting‏ وعدم 
القدرة على التعميم generalizability‏ من الاهتمامات الشائعةفي علم الأحياء الحسابي 
Computational Biology‏ . هنا بالنسبة ل Ue e scRINAseq‏ الانتباه إلى الضبط الناقص 
.underfitting‏ أي كيفية استخدام معظم البيانات. 


ليس scRINAseq kä‏ يزدهر حاليّافي علوم الحياة ولكن أيضًا التقنيات التي تقدم أنواعًا أخرى من 
المعلومات (3OMICS)‏ مصطلحات المعلوماتية الحيوية) على مستوى خلية واحدة أصبحت أكثر 
شيوعًا. esl‏ التطورات الحديثةفي دراسة مناطق الوصول إلى الكروماتين chromatin accessibility‏ 
regions (ScATACseq)‏ إلى مجموعات بيانات تحتوي على أكثر من 100 ألف خلية وحيدة.في 
حين أن scATACseq‏ وحده لا يمكن أن يضمن طريقة جديدة لاكتشاف مجموعات الخلايا النادرة 


التعلم العميق واستخداماته في المعلوماتية الحيوية 


بم 
Uo‏ 
00 


rare cell populations‏ (هدف أساسي لتحليل بيانات الخلية المفردة). فإنه يوفر إمكانات هائلة 
للتكامل مع scR.NAseq‏ وبالتالي تحسين دقة تعيين الخلايا لمجموعة معينة من السكان. 
Cel E | 1— 2‏ 


A Single-Cell Atlas of In Vivo Mammalian Chromatin 
Accessibility 


مناطق وصول الكروماتين (ATACseq)‏ مكملة لتحليل scRNAseq‏ 


single cell multi-OMICs أحادية الخلية المتعددة‎ OMICs oka لا تصل‎ es 
وما إلى ذلك)» أي مصادر المعلومات المتعددة من‎ scNM Tseq و‎ CITE-seq) technologies 
ولكنها واعدة جد‎ scRINAseq نفس الخلايا البيولوجيةء إلى أحجام عينات ضخمة نموذجية ل‎ 

لتحديات تكامل البيانات Data Integration‏ المستقبلية مع التعلم العميق -Deep Learning‏ 


تقليل الأبعاد باستخدام التعلم العميق 

نظرًا لأن الهدف الأساسي لتحليل scRINAseq‏ هو اكتشاف مجموعات الخلايا الجديدةء فهو تحليل 
غير خاضع للإشرافني مصطلحات التعلم الآلي. ومن ثم فإن أهم طريقتين تحليليتين مستخدمةفي 
scRI:NAseq‏ هما تقليل الأبعاد dimensionality reduction‏ والتكتل clustering‏ المشفرات 
التلقائية Autoencoder‏ هي شبكة inas‏ اصطناعية Artificial Neural Network (ANN)‏ 
غير خاضعة للإشراف مع بنية "الفراشة butterfly‏ " ذات المظهر المسل والتي غالبا ما تستخدم لتقليل 
الأبعاد. على عكس التقنيات الخطية مثل تحليل المكونات الرئيسية Principal Component‏ 
«Analysis (PCA)‏ رو التحجيم متعدد الأبعاد «Multi- Dimensional Scaling (MDS)‏ وتحليل 
العامل Factor Analysis (FA)‏ وما إلى 05( تقوم المشفرات التلقائية بتقليل الأبعاد غير الخطية 
non-linear dimensionality reduction‏ وبالتالى يمكنها التقاط بنية غير خطية للغاية لبيانات 
الخلية المفردة. l‏ 
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Autoencoder‏ هو عبارة عن شبكة imas‏ اصطناعية (ANN)‏ ببنية "الفراشة" 


سأوضح هنا الاختلاففي دقة الخلية المفردة بين تقنيات تقليل الأبعاد الخطية (PCA)‏ وغير الخطية 
(Autoencoder)‏ باستخدام مجموعة بيانات GCITEseq scRNAseg ~ 8K‏ دم الحبل السري 
(CBMCs)‏ كمثال. يرجى ملاحظة أن الكود obal‏ يفترض أن ملف الإدخال بتنسيق جدولي tabular‏ 
format‏ مع وجود الجينات كأعمدة وخلايا كصفوف. ويجب أن يكون العمود الأخير من الملف عبارة 
عن تعليق توضيحي للخلية تم الحصول عليه باستخدام تقنية تجميع scR.NAseq ) scRINAseq‏ 
(clustering‏ المفضلة لديك. أوصي باستخدام التجميع المستند إلى الرسم البياني graph-based‏ 
clustering‏ مع اكتشاف مجتمع Louvaine‏ « وهو قوي للبيانات عالية cle‏ ويتم تنفيذهفي سير 
عمل Seurat scR.NAseq‏ الشهير. 


import numpy as np 

import pandas as pd 

from keras.layers import Dense 

imoore macploclib كد غات لاتوت‎ jolt 

from sklearn.manifold import TSNE 

from keras.optimizers import Adam 

from sklearn.decomposition import PCA 
from keras.models import Sequential, Model 


# READ AND LOG-TRANSFORM DATA 

expr = pd.read csv('MouseBrain 10X 1.3M.txt',sep-'Nt') 
X = expr.values[:,0: (expr.shape[1]-1)] 

M expr.values[:,expr.shape[1]-1] 

X iuo LOG E ar L) 


4 REDUCE DIMENSIONS WITH PRINCIPAL COMPONENT ANALYSIS (PCA) 
jo E e U 
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EEA = PCA COMOONER ES = iab 1 عنام‎ o iE  عيط‎ 2022106 VEE = K 
pilt SEALE EEA, Oly ss EEE, d]; € = y traim, (ugs = 
'tab20', s - 10) 

plt.title('Principal Component Analysis (PCA) ') 

plt.xlabel (LEC) 

plt.ylabel("PC2") 


# REDUCE DIMENSIONS WITH AUTOENCODER 


model = Sequential )( 

model.add(Dense(30, activation-'elu', 
input shape-(n input,))) 

model.add(Dense(20, activation-'elu')) 


(Dense(10 activation-'elu')) 

(Dense (2, activation-'linear', name-"bottleneck")) 
model.add(Dense(10, activation-'elu!')) 

(Dense (20 activation-'elu')) 

(Dense(30, activation-'elu')) 
model.add(Dense(n input,  activation-'sigmoid')) 
model.compile(loss = Mean squared error', optimizer = Adam()) 
Toce o ties الت عع‎ x tEAM, Baten Size = 2e, epochs = S00, UES 
= 1) 

ncoder - Model(model.input, model.get layer('bottleneck').output) 
bottleneck representation - encoder.predict(x train) 
piteSscatievibsusllenecerepresenmeatsonim e 
bottleneck representation[:,1], 
يج‎ = y tiain; 8 = 10, CES = E20) 

plt.title('Autoencoder: 8 Layers') 
plt.xlabel("Dimension 1") 
plt.ylabel("Dimension 2") 


للمقارنة» سأضيف Us‏ مخطط تضمين Stochastic Neighbor Embedding (SNE)‏ الموزع 
على شكل حرف ct‏ وهو عبارة عن تقنية تقليل الأبعاد غير الخطية القياسية الذهبية الحاليةفي منطقة 
-scRINAseq‏ تتمثل إحدى مشكلات SINE‏ أنه لا يمكنه التعامل مع البيانات عالية الأبعاد مثل 
.scRINAseq‏ لذلك. تتمثل الممارسة الشائعةفي إجراء PCA‏ (خطي!) كتخفيض مسبق للأبعاد 
وتغذية الإخراجني SNE‏ ومع ذلك يمكننا القيام بذلك بشكل أفضل من خلال إجراء خطوة تقليل 
الأبعاد المسبقة بطريقة غير خطية باستخدام المشفر التلقائي. دعونا نعرض مخططات tSNE‏ لكلا 


الاستراتيجيتين: 


# TSNE ON PCA 
model tsne - TSNE(learning rate - 200, n components - 2, 


Eandeomn Seate > L2, 
perplexity = 90, n irer = 1000,7 2565 = 1L) 
tsne = model tsne.fit transform(x train) 
plt 6ه‎ 85532 (ESSE, Ol, caeli; il]; d = y trein, cmap = EO, s 
- 10) 


plt.title('tSNE on PCA') 
plt.xlabel("tSNE1") 
plt.ylabel("tSNE2") 


4 TSNE ON AUTOENCODER 
model = Sequential )( 
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model.add(Dense(10, activation = 'elu', 
input shape- (X.shape[1],))) 
model.add(Dense(8, activation = 'elu')) 
model.add(Dense(6, activation — 'elu')) 
model.add (Dense (4, activation = 'linear', name = 
"bottleneck")) 
model.add(Dense(6, activation = 'elu')) 
model.add(Dense(8, activation — 'elu')) 
model.add(Dense(10, activation -» 'elu')) 
model.add(Dense(X.shape[1], activation = 'sigmoid')) 
model.compile(loss = 'mean squared error', optimizer = Adam()) 
mode lL ETE, X5 Baten Size = i267 (yovexelms. = 100, SHU Ele = DEUCE, 
verbose = 1) 
ncoder - Model(model.input, model.get layer('bottleneck').output) 
bottleneck representation = encoder.predict (X) 
model tsne auto - TSNE(learning rate - 200, n components - 2, 
iramdomgsiba ee - L2, 
OSE OLSEN = 90, m iter = 0007 sedere = 1 


tsne auto - 
model tsne auto.fit transform(bottleneck representation) 
cmap > 


pilt 8582م مه‎ (tore sues. Ol, tene ewtols, Ll; e = x. 


'tab20', s > 10) 
plt.title('tSNE on Autoencoder: 8 Layers') 
plit.xlabel ("tSNEIl1") 
plt.ylabel("tSNE2") 
Principal Component Analysis (PCA) Autoencoder: 8 Layers 
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إذا لم تكن معتادًا على النظر إلى هذا النوع من المخططات. فهنا نقطة واحدة هي خلية واحدة. والألوان 
تتوافق مع أنواع مختلفة من الخلايا. من المفترض أن تراقب 12 خلية من الخلايا ولكن لا يمكنك 
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رؤيتها بشكل أساسى (تتداخل الخلايا بشكل كبير (cells heavily overlap‏ من مخطط PCA‏ لأن 
تقليل الأبعاد loo og 2 al‏ يد edi‏ المفردة. تبدو صورة المشفر التلقائي أفضلء ويمكن 
اكتشاف مجموعات الخلايا المختلفة بوضوح. يوفر SINE‏ بشكل عام نقط خلية أكثر وضوحًا. ومع 
ذلك. بالنسبة لهذه الحالة بالذات» يبدو أن tSINE‏ على المشفر التلقائى يوفر مجموعات أكثر BLS‏ 
وشفافية خاصة بالنسبة لمجموعة الخلايا الأرجواني التي تم gas dies‏ أنحاء الكتلة الزرقاءفي 
tSNE‏ على مخطط PCA‏ وبالتالي» يعد التعلم العميق واعدا لتحسين دقة GLSI‏ مجموعات 
الخلايا الجديدة. 


البحث عن تقليل الأبعاد القابل للقياس 

بالإضافة إلى صعوبة التعامل مع البيانات عالية الأبعاد. فإن مقياس SNE‏ سيئ عندما يصل عدد 
الخلايا إلى مئات الآلاف والملايين. FItSNE‏ هو تعديل جديد واعد ل Barnes-Hut tSNE‏ والذي 
يبدو أنه يتسع بشكل أفضل لكميات كبيرة من البيانات. ومع ذلك عند تشغيل FItSNE‏ على 1.3 
مليون خلية دماغيةفي UII‏ واجهت مشاكلفي تركيبهاني الذاكرة. على وجه الخصوصء كنت أرغبفي 
الحصول على مخططات tSNE‏ لارتباكات perplexities‏ عالية من أجل التحقق من الهيكل العالمي 
للبيانات. ومع ذلك كان الارتباك (perplexity)‏ = 350 هو الحد الأقصى من الارتباك الذي تمكنت 
من الوصول إليه باستخدام عقدة ذات ذاكرة وصول عشوائي (RAM)‏ بسعة 256 جيجابايت على 


مجموعة الكمبيوتر. يعد تشغيل 11651715 أمرًا بسيطًا للغاية ويشبه الطريقة التي تؤدي بها R GtSNE‏ 
(مرة أخرى. يحتوي عمود الكتلة Cluster column‏ على التعليقات التوضيحية للخلية): 


library("data.table") 

Soie cr FASE SNe E) 

expr «- 

suppressWarnings (as.data.frame(fread("10X Mouse Brain 1.3M.txt",sep 

z"NE"))) 

my color«-as.numeric (as.character (expr$Cluster)) 

expr$Cluster«-NULL 

expr«-as.data.frame(t(expr)) 

N cells«-dim(expr) [2] 

print(pasteO("DATASET CONTAINS ",dim(expr)[1]," GENES AND 

v.m cells, Qum) 

tsne opt perp «- fftRtsne(t(logl0(expr-*20)),check duplicates-FALSE, 
perplexity-350,dims-2,max iter-5000) 

plot(tsne opt perp$Y,colemy color,xlab-"tSNEI",ylab-"tSNE2",cex-0.5 

) 


يعد التقريب والإسقاط المتشعب الموحد Uniform Manifold Approximation and‏ 
Projection (UMAP)‏ تقنية أخرى مثيرة للاهتمام للغاية لتقليل الأبعاد غير الخطية والتي يبدو أنها 
تتفوق Dlo‏ على GESINE‏ العديد من الجوانب. إنه أسرع من tSNE‏ بنفس سرعة FItSNE‏ ولكنه 
لا يتطلب قدرًاكبيرًا من الذاكرة, ويبدو أنه يلتقط كلاً من البنية المحلية والعالمية لبيانات -ScRI:NAseq‏ 
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ربما يكون العيب الوحيد الذي أراه هو الرياضيات غير الشفافة nontransparent mathematics‏ 
بعض الشىء وراء UMAP‏ التى أواجهها حاليًا. 


from umap import UMAP 

model = UMAP(n neighbors = 30, min dist = 0.3, n components = 2) 
umap - model.fit transform(X reduced) 

umap coords = pd.DataFrame(('UMAPl':umap[:, 0], 'UMAP2':umap[:, 
101139) 

umap coords.to csv('umap coords 10X 1.3M MouseBrain.txt', sep-'Nt') 
jolie Sete EUAN, Ol, Ol, di» e = X» cune = 529252057 5 = T) 
plt.title('UMAP') 

plt.xlabel (("UMAPI") 

plt.ylabel("UMAP2") 


تم مؤخرًا إصدار عدد قليل من الأساليب المثيرة للاهتمام استنادًا إلى .Variational Autoencoders‏ 

أحدها هو 501715 وهي شبكة عصبية تلتقط وتصور الهياكل منخفضة الأبعادفي بيانات التعبير الجيني 

للخلية الوحيدة؛ بالإضافة إلى أنها تحافظ على كل من هياكل الجوار المحلية والعالمية. لتشغيل 
5 على 1.3 مليون خلية دماغيةني الفأ استخدمت سطر الأوامر التالي: 

python scvis train --data matrix file 10X 1.3M.txt --out dir 

out scvis 


--data label file 10X 1.3M MouseBrain CellAnnotationSeurat.txt 
zxvenbosclevenbosecainmeenval S0 E MON olor 


أقدم أدناه مقارنة بين تقنيات تقليل الأبعاد الأربعة المذكورة. مثل PCA‏ و tSNE / FItSNE‏ و 
UMAP‏ و SCVIS‏ باستخدام خلايا دماغ M1.3 JUJl‏ من :10X Genomics‏ 


PCA, 10X Genomics 1.3M Mouse Brain Cells 


Autoencoder 10 Hiden Layers, 10X Genomics 1.3M Mouse Brain cells 
1 
20 


Dimension 2 
o 


- -z2 -io M 10 20 3 " فط قف‎ S o H 0 1 5 
rcr Dimension 1 
UMAP 10X Genomics 1.3M Mouse Brain cells tSNE perplexity = 350, 10X Genomics 1.3M Mouse Brain cells 


T f. " 


ip ssl 


SNE 2 


-54 


مقارنة الكروماتين لتقنيات الحد من الأبعاد على مجموعة بيانات دماغ الماوس M 10X1.3‏ 
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بالنسبة لحالة CITEseq‏ اعلا يمكننا هنا أن نرى أنه على عكس PCA‏ فإن تقنيات تقليل الأبعاد 
غير الخطية SCVIS)‏ و UMAP‏ و (SNE / FIISNE‏ قادرة على حل جميع مجموعات الخلايا 
في بيانات scRINAseq‏ من بين التقنيات الثلاثةء كان UMAP‏ هو الأسرع وقدم تمثيلًا منخفضًا 
Doa‏ للبيانات. لكي نكون أكثر دقة حول الأوقات الحسابيةء استغرق 5075715 حوالي 6 ساعات» 
واستغرق 3 FINE‏ ساعات والكثير من الذاكرة» استغرق UMAP‏ حوالي 3 ساعات على جهاز 
الكمبيوتر المحمول الخاص بي. 


مع الأخذني الاعتبار الكميات المتزايدة من بيانات iscRINAseq‏ أتوقع أن يحل UMAP‏ 
Autoencoders;‏ محل GtSNE‏ المستقبل. 


المشفر التلقائي العميق ل scR.NAseq‏ مع Keras‏ 
duel‏ سأوضح هنا كيفية التنفيذ من البداية وتشغيل برنامج مشفر تلقائي عميق Deep‏ 
Autoencoder‏ باستخدام 5 . كما ستری» الأمر ليس بهذه الصعوبة. من أجل تجنب الصعوبات 
في تحميل مجموعة البيانات بأكملهاني الذاكرة» اخترت أفضل 19 مكوتًا رئيسيًا وجدت أنها مهمة من 
خلال إعادة التشكيل» أي خلط مصفوفة التعبير الجينى والتحقق من النسبة المئوية للتباين الموضحة 
بواسطة المصفوفة المضمنة permuted matrix‏ (فرضية العدم .(null hypothesis‏ خفضت 
المشفر التلقائى الأبعاد تدريجياً من 19 إلى 2 (عنق الزجاجة bottleneck‏ المشفر التلقائي). حيث 

كانت كل طبقة مخفية تقلل بعد aly‏ 

import numpy as np 
import pandas as pd 
from keras.layers import Dense 
import matplotlib.pyplot as plt 
from keras.optimizers import Adam 
from sklearn.decomposition import PCA 


from keras.models import Sequential, Model 
from sklearn.preprocessing import MinMaxScaler 


# READ DATA AND LOG-TRANSFORM DATA 

expr = pd.read csv('MouseBrain 10X 1.3M.txt', sep = 'Nt', header = 
None) 
X = expr.values[:,0: (expr.shape[1]-1)] 
X expr.values[:,expr.shape[1]-1] 

X O E OEE SZ MOS OG O كك‎ L) J 


# REDUCE DIMENSIONS WITH PRINCIPAL COMPONENT ANALYSIS (PCA) 


m ingone = 39 

x train = PCA(n components = n input).fit transform(X) 
y crain cs 

x train - MinMaxScaler().fit transform(x train) 


i REDUCE DIMENSIONS WITH AUTOENCODER 
model = Sequential )( 
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Dense(18, 


Dense(17, 
Dense(16, 
Dense(15, 
Dense(14, 
Dense(13, 
Dense(12, 


Dense (11, 


Dense(10, 
Dense(9, 
Dense(8, 
Dense(7, 
Dense(6, 
Dense(5, 
Dense (4, 
Dense(3, 


Dense (2, 


Dense(3, 
Dense (4, 
Dense(5, 
Dense(6, 
Dense(7, 
Dense(8, 
Dense (9, 
Dense (10, 


Dense(11, 


model.add( 
kernel ini 
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model.add( 
kernel ini 
model.add( 
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tion-'sigmoid')) 


optimizer = Adam(lr = 


tion-'elu', 
tion-'elu', 


tion-'elu', 


tion-'elu', 
tion-'elu', 
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model.add(Dense(12, activa 
kernel etait Me WDE لت‎ 
model.add (Dense (13, activa 
kernel initializer-'he uniform' 
model.add(Dense(14, activa 
kernel initializer-'he uniform' 
model.add(Dense(15, activa 
kernel initializer-'he uniform' 
model.add(Dense(16, activa 
kernel MEAT Ze U Ne OME GEME 
model.add (Dense (17, activa 
kernel initializer-'he uniform' 
model.add(Dense(18, activa 
kernel initializer-'he uniform" 
model.add(Dense(n input, activa 
model.compile(loss - 'mean squared error', 
0.0001)) 

model.summary() 

4 FIT AUTOENCODER MODEL 


SEO = moel ENES creim, x CEM, batch size = 4096, ل‎ = 


shuffle = False, verbose = 0) 
lt EIE v mist ory i Loss =L) 


oder > Model(model.input, model.get layer('bottleneck').output) 
tleneck representation - encoder.predict(x train) 


10X Genomics 1.3M Mouse 


"igo O ) 


34 Hidden Layers, 


O, 
prime (yan se Urania LOSS Uy 
plt.figure(figsize-(20, 15)) 
jolie plor (Iob EOE MNE SEO MLS desi V 11 3) 
plt.title('Model Loss') 
plt.ylabel('Loss') 
plt.xlabel('Epoch') 
plt.show() 
ipic 
bot 
# PLOT DIMENSIONALITY REDUCTION 
plt.figure(figsize-(20, 15)) 
pite scattemnibsusllenecemepresenmealsiontm lr 
bottleneck representation[:,1], 
C = Yr sS - 1, cmap 

plt.title('Autoencoder: 
Brain Cells") 
plt.xlabel("Dimension 1") 
plt.ylabel("Dimension 2") 
plt.show() 
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Autoencoder: 34 Hidden Layers, 10X Genomics 1.3M Mouse Brain Cells 


Dimension 2 


EF 


-04 


مشفر تلقائي عميق لتقليل الأبعاد لخلية دماغ الفأر «1.3M 10X‏ تنفيذ Keras‏ 


يمكننا أن نرى أن مجموعات الخلايا يمكن تمييزها GLS‏ على الرغم من أنني لم أحاول تحديدا العثور 
على التكوين الأمثل للشبكة العصبية التي من المحتمل أن توفر دقة أفضل. ميزة كبيرة للمشفر التلقائي 
العميق هي أنه يبدو سريعًا جد وبالتالي قابل للقياس scalable‏ للكميات الكبيرة من بيانات 
cscRINAseq‏ فقد استغرق الأمر دقيقتين فقط على الكمبيوتر المحمول الخاص بي حتى يتقارب 
converge‏ النموذج ويحصل على المخطط أعلاه. 


المشفر التلقائي ل scR:NAseq‏ مع TensorFlow‏ 

65 رائعة وسريعة وسهلة ولكنفي بعض الأحيان يكون لدي انطباع بأنني أتحكم في الشبكات العصبية 
بشكل أفضل باستخدام .TensorFlow‏ على سبيل EI‏ مع Y Keras‏ يمكن للمرء أبدا الشعور 
بالربط "يدويًا "manually‏ بين QUE‏ وهذا هو العمقفي الفهم الذي أقدر تحقيقه باستخدام 
TensorFlow‏ العيب البسيط لهذا الأخير هو أن خدعة مفيدة مثل التعلم على دفعات mini-3 x»‏ 
batch learning‏ يجب أن يتم ترميزها يدويّافي TensorFlow‏ ويتم تضمينها تلقائيّافي Keras‏ على 
النقيض من ذلك. على أي حال» إليك كود المشفر التلقائي العميق ومخطط تقليل الأبعاد: 


import numpy as np 

import pandas as pd 

import tensorflow as tf 

م AS‏ 16و اتام 5ك لعزت لاك عالت MOOSE E‏ 
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X x ox EEE 

# DEFINE HYPERPARAMETERS 

learning rate = (9) 0731 

training epochs - 500 

mini batch size — 1024 mini batch size - X.shape[0]-1 
display step = 10 how often to display loss and 
accuracy 

num hidden 1 = 1 1st hidden layer num features 
num hidden 2 = 8 2nd hidden layer num features 
num hidden 3 - 4 3-d hidden layer num features 
num bottleneck = 2 bottleneck num features 

num input = X.shape[1] SCRANAseq data input (number of 
genes) 


# TENSORFLOW GRAPH INPUT 
x — tf.placeholder ("float") 
y ^ tf.placeholder ("float") 


weights = ( 


encoder MU: tf.Variable(tf.random normal([num input, 
num hidden 1])), 
'encoder h2': tf.Variable(tf.random normal([num hidden 1, 
num hidden 2])), 
'encoder h3': tf.Variable(tf.random normal([num hidden 2, 
num hidden 3])), 
'bottleneck':  tf.Variable(tf.random normal([num hidden 3, 
num bottleneck])), 
decoder MU E tf.Variable(tf.random normal([num bottleneck, 
num hidden 3])), 
decoder h2': tf.Variable(tf.random normal([num hidden 3, 
num hidden 2])), 
'decoder h3': tf.Variable(tf.random normal([num hidden 2, 
num hidden 1])), 
'decoder out': tf.Variable(tf.random normal([num hidden 1, 
num input])), 
} 
biases = 1 
encoder Bl tf.Variable(tf.random normal([num hidden 1])), 
eneoder 2t; tf.Variable(tf.random normal([num hidden 2])), 
'encoder b3': tf.Variable(tf.random normal([num hidden 3])), 
'bottleneck': tf.Variable(tf.random normal([num bottleneck])), 
decodes onii tf.Variable(tf.random normal([num hidden 3])), 
"decoder DZ. tf.Variable(tf.random normal([num hidden 2])), 
decoder b3': tf.Variable(tf.random normal([num hidden 1])), 
'decoder out': tf.Variable(tf.random normal([num input])), 
j 
# CONSTRUCT AUTOENCODER MODEL 


PDE mE Noa! «s 3 4ت 2055222 6 عع عع كن‎ Model sss” T ا‎ 
def encoder (x): 
layer JL = rcf nn الات‎ (exe ecler menu اعد‎ weaken [rV exoxerexekese Miti) x 
biases['encoder b1'])) 
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layer 2 = tr Mn لالت‎ (ege SECO CEE mecak Hayer Ly 
weights['encoder h2']), 
Biases | encoder 2] 
layer 3 = ti omm ر‎ (EE o CO ) قنك‎ ME CON (LES 2, 
weights['encoder h3']), 
biases ERE OEE OS) 
bottleneck - tf.add(tf.matmul(layer 3, weights['bottleneck']), 
biases['bottleneck']) 
return bottleneck 


def decoder (x): 


Layee 1 = EE an CLUE AGIA (ese لضت‎ E, weights elexerorolese mii) p 
Bases | decoder 117 1 
layer 2 = tr Mm عن الات‎ SECO (EE MESON (layer dbz 


weights['decoder h2']), 

Ipitassesiideceoderg 2] 
layer 3 - tf.nn.elu(tf.add(tf.matmul(layer 2, 
weights decoderch3:]97 


Ba Ses | elexerorelese- 9159 [3 y 
layer out > tf.nn.sigmoid(tf.add(tf.matmul(layer 3, 
weights['decoder out']), 


biases['decoder out'])) 
return layer out 


ncoder op - encoder (x) 

decoder op - decoder (encoder op) 

Y pred - decoder op 

yO ece = د‎ 

COSE = EE eckes Mean (Ef )67م‎ 6202 = y Peed, 2)) 

optimizer < tf.train.AdamOptimizer(learning rate).minimize (cost) 


# START TRAINING AUTOENCODER 
OEE (pU New de USE Treining 52236 nos M sp UNIS) 
my (oe = MH 
tf.set random seed(12) 
with tf.Session() as sess: 
sess.run(tf.global variables initializer()) 
for epoch in range(training epochs): 


pos = 0 
idx = np.arange(X.shape[0]) 
my Cost Minn Daten = [| 


for | in range (10000000): 
fprint('Mini-batch (0) = [(1)'.format(pos,pos -* 
mini batch size)) 


if POS | Minmi batea Size < X smell s 


break 
balen x = EX 292252 POS, POS u min boeten Sexe» | 8] 
رع‎ = Sess Tun [cost; COPE م نه‎ Feed 8151:8855 {zs 


batch x]) 
my cost mini batch.append(c) 
joo = BOS sr MIRAE لات‎ Size 
my cost.append(np.mean(my cost mini batch)) 
ans (epoch ae 3b) او د‎ step == (08 
jekestpauE(Mmpsoxelmg UU SUAS. x (agoen a db) 
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[EN 
301 


"Cost = dro 
"(:.9f£]".format(np.mean(my cost mini batch))) 
prec = SESS. EUR ) 2250462 (53) p. eee diel X0) 

# PLOT LOSS FUNCTION 
plt.figure(figsize-(20, 15)) 
plt.plot(range(training epochs), my cost) 
plt.xlabel("Epoch",fontsize - 20) 
plt.ylabel("Loss",fontsize - 20, rotation - 1) 
plt.show() 

i VISUALIZE AUTOENCODER BOTTLENECK 
plt.figure(figsize-(20, 15)) 
pie Seules (BEESON, vexexelll endi] CG M sc db eng E 19219) 
plt.title('Autoencoder: 8 Hidden Layers', fontsize - 20) 
plt.xlabel("Dimension 1", fontsize - 20) 
plt.ylabel("Dimension 2", fontsize - 20) 
plt.show() 

Autoencoder: 8 Hidden Layers 

2 

0 

E] 
يم‎ 
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Dimension 1 


مشفر تلقائي عميق لتقليل الأبعاد لخلايا دماغ الفأر .1.3M 10X‏ تنفيذ TensorFlow‏ 


مرة أخرى» يبدو التمثيل منخفض الأبعاد els‏ مع بعض التغيير والتبديلفي التكوين والمعلمات الفائقة 
الأخرى» يمكن للمرء الحصول على دقة أفضل بكثير. مرة أخرى. بالنسبة إلى Keras‏ فإن تطبيق المشفر 
التلقائي العميق هذا سريع AUU‏ فقط بضع دقائق مقارنة بالساعات المستخدمة بواسطة FItSNE‏ و 
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UMAP‏ و 501715 لإنتاج هذا النوع من مخطط تقليل الأبعاد. إذا كانت هناك حاجة إلى إجراء إعادة 
التشكيل resampling‏ لسبب ما لتحليلك» فلن يكون ذلك ممكنا للغاية مع FItSNE‏ و UMAP‏ و 
5 ولكن يجب أن يكون من السهل جدا تنفيذه باستخدام التعلم العميق. 

الانستنتاج 

لقد تعلمنا هنا أن تسلسل الحمض النووي الريبي أحادي الخلية (SCRINAseq)‏ يحسن بسرعة فهمنا 
للتنوع الوظيفي بين الخلايا البيولوجية. ربما يكون تقليل الأبعاد هو أهم ibl‏ تحليلية وراء تحليل 
scRINAseq‏ النموذجي. تواجه تقنية تقليل الأبعاد القياسية الذهبية Dl tSINE‏ صعوباتفي قابلية 
التوسع بسبب الكميات الكبيرة من البيانات التي تقدمها تقنيات scRINAseq‏ يوفر التعلم العميق عبر 
Autoencoder‏ و UMAP‏ حاليًا أكثر الطرق مرونة وقابلية للتطوير للحصول على تمثيلات منخفضة 
الأبعاد لبيانات scRINAseq‏ ومن المرجح أن يحل محل GtSNE‏ المستقبل. أخيرًاء تعلمنا كيفية 
تنفيذ المشفر التلقائي العميق لمجموعة بيانات scRNAseq‏ لخلايا دماغ الفأر العملاقة 10X‏ 


. TensorFlow و‎ Ķeras باستخدام‎ 1.3M Genomics 


المصدر: 


https://towardsdatascience.com/deep-learning-for-single-cell-biology- 
935445064438 
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Deep Learning for Data التعلم العميق لتكامل البيانات‎ (10 
Integration 

(التأثيرات التآزرية لتكامل البيانات مع التعلم العميق) 
هذه هي المقالة الثالثةفي سلسلة التعلم العميق لعلوم الحياة.في المنشورين السابقين» أوضحت كيفية 
استخدام التعلم العميق على الحمض النووي القديم والتعلم العميق لبيولوجيا الخلية المفردة. سنناقش 
الآنكيفية استخدام مصادر متعددة للمعلومات البيولوجيةء وبيانات OMICS‏ من أجل تحقيق نمذجة 
أكثر دقة للأنظمة البيولوجية عن طريق التعلم العميق. 


استفادت الأبحاث البيولوجية والطبية الحيوية بشكل كبيرفي العقد الماضي من التقدم التكنولوجي الذي 
يقدم تسلسل الحمض النووي (الجينوميات (genomics‏ والتعبير الجيني gene expression‏ 
(النسخ 65 وووفرة البروتين protein abundance‏ (البروتينات (proteomics‏ 
والعديد من المستويات الأخرى من المعلومات البيولوجية التي يشار إليها عادة باسم 01/1005. على 
الرغم من أن طبقات OMIC‏ الفردية قادرة على الإجابة على العديد من الأسئلة البيولوجية المهمة, إلا 
أن دمجها وتأثيراتها التآزرية synergistic effects‏ الناتجة عن تكاملها تعد برؤى جديدةفي سلوك 
الأنظمة البيولوجية مثل الخلايا والأنسجة والكائنات الحية. لذلك يمثل تكامل 1/1105 © OMICs)‏ 
2 التحدي المعاصرفي علم الأحياء Biology‏ والطب الحيوي Biomedicine‏ . 


في هذه المقالة سأستخدم التعلم العميق Deep Learning‏ مع Keras‏ وأظهر كيف أن تكامل بيانات 
95 المتعددة (multi-OMICSs data)‏ يكشف عن bus‏ مخفية غير مرئيةفي OMICs‏ 
الفردية. 

الخلايا المفردة تصنع البيانات الضخمة 

مشكلة تكامل البيانات data integration‏ ليست جديدة GLS‏ لعلوم البيانات. تخيل أننا نعلم أن 
شخصًا ما ينظر إلى صور معينة ويقرأ نصوصًا معينة ويستمع إلى موسيقى معينة. تعد الصورة والنص 
والصوت أنواعًا مختلفة جد من البيانات» ومع ذلك يمكننا محاولة دمج combine‏ هذه الأنواع من 
البيانات من أجل البناء على سبيل المثال نظام توصية recommender system‏ أفضل يحقق دقة 
أعلىني التقاط اهتمامات الشخص. بالنسبة إلى علم الأحياء والطب الحيوي. لم تصل فكرة تكامل 
البيانات إلى هنا إلا مؤخرًاء ومع ذلك فقد تم تطويرها بنشاط مع الزاوية البيولوجية مما أدى إلى العديد 
من المنهجيات المثيرة للاهتمام مثل mixOmics‏ و MOFA‏ وانصهار شبكة التشابه Similarity‏ 
Network Fusion (SNF)‏ و .OnPLS / JIVE / DISCO‏ شبكات بايزي Bayesian‏ 
Networks‏ إلخ. 
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Exploration OnPLS — 
MIX Integration Notoris 
mics س‎ pan letwork 


Clustering of Clusters DISCO 


"* ** SIMILARITY NETWORK FUSION (SNF) ** +” 


إحدى المشكلات التي تواجهها جميع أساليب OMIC‏ التكاملية المذكورة أعلاه هي لعنة الأبعاد 
«curse of dimensionality‏ أي عدم القدرة على العملفي مساحة عالية الأبعاد مع عدد محدود من 
الملاحظات الإحصائية «statistical observations‏ وهو إعداد نموذجى لتحليل البيانات البيولوجية. 
هذا هو المكان الى تكرن فيه cos‏ اغف asbl‏ الخلية مقيدة V‏ لأنها تقدم مئات الآلاف 
وحتى الملايين من الملاحظات الإحصائية (الخلايا) كما ناقشناهافي المقالة السابقة» وبالتالي توفر 
بيانات كبيرة o‏ مثالية للتكامل .Big Data ideal for integration‏ 


CN م‎ << 


Genome Epigenome H Transcriptome i Proteome 


Single cell [ © 0 | 5 


genomics CNV ONA methylation t: | 
SNP Histone modification ; ; RNA expression ; ; Protein expression : 
Chromatin ¦ ¦ RNA structure : 


Single cell i 
Multi-omics — | 


pis Seq(eyetal,2015) METSeQ sMT-Seq(Huetal2016) ^ CITEseq (Stoecióus et al, : 


[Angermueller et al, 2016 scTrio-Seq (Hou et al., 2016 ) 
[Macaulay etat, 2015 t * ) WEA 


تقنيات خلية واحدة متعددة -OMIC s‏ 


إنه لأمر مثير للغاية أن تقنيات الخلية المفردة متعددة OMIC‏ مثل CITEseq‏ و scNMT'seq‏ توفر 
مستويين وثلاثة مستويات من المعلومات البيولوجية biological information‏ على التوالي» من 
نفس الخلايا بالضبط. 
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تكامل بيانات CITEseq‏ مع التعلم العميق 
سنقوم هنا بإجراء تكامل غير خاضع للإشراف unsupervised integration‏ لبيانات النسخ 
165 لخلايا المفردة (scRINAseq)‏ والبروتيوميات GcProteomics)‏ من 
.CITEseq‏ 8 617 خلية أحادية النواة لدم الحبل السري cord blood mononuclear cells‏ 
(CBMC)‏ . باستخدام المشفر التلقائي Autoencoder‏ التي تناسب بشكل مثالي التقاط الطبيعة 
غير الخطية للغاية لبيانات 02/105 أحادية الخلية . لقد قمنا بتغطية مزايا استخدام المشفر التلقائي 
لبيولوجيا الخلية المفردةفي المنشور السابق» ولكن باختصار ترتبط بحقيقة أن تحليل الخلية المفردة غير 
خاضع للإشراف بشكل أساسي. نبدأ بتنزيل بيانات CITEseq‏ من هناء وقراءتها مع Pandas‏ وتحويل 
السجل .log-transforming‏ وهو ما يعادل تطبيعًا معتدل SLS mild normalization‏ 
الصفوف عبارة عن LA‏ والأعمدة هي mRNA‏ أو ميزات بروتينية .protein features‏ والعمود 

الأخير يتوافق مع شرح الخلية „cell annotation‏ 

import numpy as np 
import pandas as pd 
from keras.models import Model 
anges MENE SOLON O ASLO AS لدم‎ 
from sklearn.manifold import TSNE 
from keras.utils import plot model 


from keras.layers import Input, Dense 
from keras.layers.merge import concatenate 


SCRNAseq = pd.read csv('scRNAseq.txt',sep-'Nt') 
ScProteomics = pd.read csv('scProteomics.txt',sep-'Nt') 


X scRNAseq = scRNAseq.values[:,0: (scRNAseq.shape[1]-1)] 

Y scRNAseq = scRNAseq.values[:,scRNAseq.shape[1]-1] 

X SCErOEeOMI GS escbasorcomiesswvaluesitsemosceEroieonicesssapei DE 
YEScPrtoObeomiese-escProbveomiesmvaduesimsebsoteemiesimshape|s 


X scRNAseq - np.log(X scRNAseq * 1) 
X SCEFOECOMTLES = M- log لمق عات كام كد‎ m 1L) 


سنقوم الآن ببناء نموذج المشفر التلقائي مع 4 طبقات مخفية باستخدام Keras‏ الوظيفية API‏ يحتوي 
Autoencoder‏ على مدخلين» واحد لكل طبقة من المعلومات» أي «scProteomics; scRINAseq‏ 
ومخرجات مقابلة تهدف إلى إعادة بناء المدخلات. يتم تحويل طبقتي الإدخال input layers‏ بشكل 
خطي بشكل منفصل في الطبقة المخفية الأولى L) first hidden layer‏ يعادل تقليل أبعاد (PCA‏ قبل 
أن يتم تجميعهماني الطبقة المخفية الثانية .second hidden layer‏ خير تتم معالجة OMICs‏ 
المدمجة من خلال عنق الزجاجة bottleneck‏ المشفر التلقائيء وأخيرًا يتم إعادة بناء الأبعاد تدريجيًا 
إلى الأبعاد الأولية Gy‏ لتماثل "الفراشة butterfly‏ " النموذجي للمشفرات التلقائية. 
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scRNAseq: InputLayer scProteomics: InputLayer 


Encoder scRNAseq: Dense Encoder scProteomics: Dense 


concatenate, |: Concatenate 


Bottleneck: Dense 


Concatenate, Inverse: Dense 


Decoder scRNAseq: Dense Decoder. scProteomics: Dense 


التكامل غير الخاضع للإشراف لبيانات CITEseq‏ 


في الكود الخاص ب «Usi Autoencoder‏ من المهم ملاحظة أن الطبقة المخفية الأولى تفرض Ía‏ 
T‏ الأبعاد على scRINAseq‏ من 977 إلى 50 cÉ‏ بينما تترك GS scProteomics‏ هي G‏ 
أي تقليل الأبعاد من 11 إلى 10. يقلل إجمالي الأبعاد الستين بعد التسلسل وصولاً إلى 50 متغيرًا كامنًا 
latent variables‏ و التي تمثل مجموعات من ميزات كل من MRNA‏ والبروتين. 


# Input Layer 

ncol scRNAseq - X scRNAseq.shape[l1] 

input dim scRNAseq - Input(shape - (ncol scRNAseq, ), name - 
"SCRNAseq") 

REL sceEroteomiesm exEscbProuconicsmshapey 
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IASUE(SRABE = (NESL SCErFOEEOMI CS, (| mame‏ < كك dim SCEFOEeOMI‏ الاش سك 
"ScProteomics")‏ ~ 


* Dimensions of Encoder for each OMIC 
encoding dim scRNAseq - 50 
encoding dim scProteomics - 10 


# Encoder layer for each OMIC 
encoded scRNAseq - Dense(encoding dim scRNAseq, activation - 


1 eau 
name = 
"Encoder scRNAseq") (input dim scRNAseq) 
encoded scProteomics = Dense(encoding dim scProteomics, activation 
= linearly, 
name = 
"Encoder scProteomics") (input dim scProteomics) 


# Merging Encoder layers from different OMICs 
merge - concatenate([encoded scRNAseq, encoded scProteomics]) 


# Bottleneck compression 
BoE lene علك‎ = Dense SO, Kernel initializer = 22ت ات 3 | المع دن‎ = 
Timeen” 

name = "Bottleneck") (merge) 


#Inverse merging 


merge inverse > Dense(encoding dim scRNAseq 7 
encoding dim scProteomics, 
activation - 'elu', name - 


"Concatenate Inverse") (bottleneck) 


# Decoder layer for each OMIC 


decoded scRNAseq - Dense(ncol scRNAseq, activation - 'sigmoid', 
name = "Decoder scRNAseq") (merge inverse) 
decoded scProteomics = Dense(ncol scProteomics, activation > 


Jat “درم‎ y 
name = 
"Decoder scProteomics") (merge inverse) 


# Combining Encoder and Decoder into an Autoencoder model 
autoencoder - Model(input - [input dim scRNAseq, 
input dim scProteomics], 

output —- [decoded scRNAseq, 


decoded scProteomics]) 


# Compile Autoencoder 
autoencoder.compile(optimizer = 'adam', 
lossc('Decoder scRNAseq':; "mean-csquared'error*, 
'Decoder scProteomics': 
'mean squared error']) 
autoencoder.summary() 


شىء مفيد للغاية هنا هو أنه يمكننا تعيين دوال الخطأ loss functions‏ المختلفة إلى OMICS‏ القادمة 
من توزيعات إحصائية مختلفة» على سبيل المثال من خلال الجمع بين البيانات الفئوية categorical‏ 
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والمستمرة ccontinuous‏ يمكننا تطبيق الإنتروبيا المتقاطعة الفئوية categorical cross entropy‏ 
ومتوسط الخطأ التربيعي «mean squared error‏ على التوالي. شيء Qo‏ آخر حول تكامل البيانات 
عبر Autoencoders‏ هو أن جميع OMICSs‏ تعرف بعضها البعض حيث يتم تحديث وزان كل عقدة 
node‏ / ميزة feature‏ من خلال الانتشار الخلفي back propagation‏ سياق بعضها البعض. 
el‏ دعونا ندرب Autoencoder‏ وإدخال عنق الزجاجةفي tSNE‏ من أجل التصور: 


f Autoencoder training 
estumatorc-daubtoencodern-sfuüt X SERNASOG, XescEroteomicesm 
[X scRNAseq, X scProteomics], 


bacca size = 126;‏ ;100 = 25م ممه 
validatiom split = 0.2, shuffle‏ 


verbose = 1) 
peime TEARS bosss V" exu s Imistecxes |t loss" ND) 


E ME VEN ication LOSSES V estinetor o Imiieneexev [p vel Loss | ] 


plr 2ن لان‎ (OSE MENCOL -amisto lossi) 

DE plor (estimator NI SEO VN val OSS ]) 
plt.title('Model Loss') 

plt.ylabel('Loss') 

plt.xlabel('Epoch') 

ple legere REAR Va SAE رم ل‎ lr Llog = كم م"‎ iome") 
plt.show() 

# Encoder model 


ncoder - Model(input - [input dim scRNAseq, 
input dim scProteomics], 
output = bottleneck) 
bottleneck representation - encoder.predict([X scRNAseq, 
X scProteomics]) 


# tSNE on Autoencoder bottleneck representation 
model tsne auto - TSNE(learning rate - 200, n components 
Eandom sterte = 1 


parplesity = 90, m iter = 1000, WSE OOS 


ES chr) = 
model tsne auto.fit transform(bottleneck representation) 


pile SEES (tene aucels, 0) 5 cene undo s. d, e = s sues, 


= 'tab20', s = 10) 


plt.title('tSNE on Autoencoder: Data Integration, CITEseq') 


plt.xlabel("tSN 
plt.ylabel("tSN 
plt.show() 


ا 
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tSNE on Autoencoder: Data Integration, CITEseq 


o 
SNE1 


1 
‘€ 


A 
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scRNAseq 


تأثير تكامل بيانات :CITEseq‏ لرؤية الأنماط غير المرئيةفي OMICSs‏ الفردية 


بمقارنة مخططات SNE‏ التي تم الحصول عليها باستخدام 01/1105 الفردية مع tSNE‏ على عنق 
الزجاجةفي المشفر التلقائي الذي يجمع البيانات» يمكننا أن نرى على الفور أن التكامل متوسط إلى حد 
ما ويعزز OMICS‏ الفردية. على سبيل المثال» سيكون من الصعب اكتشاف الكتلة الأرجواني باستخدام 
بيانات scRNAseq‏ وحدها لأنها لا تختلف عن مجموعة LAI‏ الزرقاءء ولكن بعد التكامل يمكن 
تمييز مجموعة الخلايا الأرجوانى بسهولة. هذه هى قوة تكامل البيانات! 

تكامل بيانات scINM Tseq‏ مع التعلم العميق 


بينما يشتمل CITEseq‏ على مستويين من الخلايا المفردة من المعلومات transcriptomics)‏ و 
«(Protomics‏ فإن تقنية رائعة أخرى. «scNMT'seq‏ تقدم ثلاثة OMICs‏ من نفس الخلايا 


3 « methylation pattern (scBSseq) (2 «transcriptomics (scRINAseq) (1 البيولوجية:‎ 
يمكن تنزيل البيانات الأو لية من هنا.‎ open chromatin regions (scATACseq) 3 
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۹ CA "rene ScRNAseq: InpotLayer scBSseq: InputLaycr SSATACsoq: InpatLayer 
Lysis 95 
کے‎ : 
| GpC methylase 2 Q $e? 5 


> Dropout_scRNAsoq: Dropout Dropout_scBSsog: Dropout Dropout_scATACseq: Dropout 


a 


| Encoder scliSseq: Dense | Encoder. scATACseq: Dense | 


concatenate |: Concatenate. 


Sequencing, 
mapping and Bottleneck: Dense 
splitting 

C. ١ 


کے 


Decoder, scRNAseq: Dense Decoder, scBSseq: Dense 


تكامل بيانات ScNMTseq‏ مع Autoencoder‏ 


Decoder, scATACseq: Dense 


إن بنية Autoencoder‏ مماثلة لتلك المستخدمةفي CITEseq‏ مع خصوصية واحدة فقط: يتم 
استخدام تسوية التسرب Dropout regularization‏ على طبقات الإدخال input layers‏ هذا يرجع 
إلى حقيقة أن لدينا 120 خلية فقط متسلسلة بينما أبعاد مساحة الميزة هي عشرات الآلاف. لذلك نحن 
بحاجة إلى تطبيق التنظيم regularization‏ للتغلب على لعنة الأبعاد. لاحظ أن هذا لم يكن ضروريًا ل 
CITEseq‏ حيث كان لدينا حوالي K8‏ خلية و ~ K1‏ ميزات» لذلك الوضع المعاكس GLS‏ ومع 
ذلك scNMTseq ob‏ بشكل عام ليست حالة سهلة لتكامل البيانات» وأعتقد اعتقادًا Gal‏ أن هذه 
مجرد بداية لعصر خلية مفردة متعددة ال OMICS‏ وأن العديد من الخلايا ستصل قريبًا من هذه التقنية 
المثيرةء لذلك من الأفضل أن تكون مستعدا. 


import numpy as np 

import pandas as pd 

from umap import UMAP 

from keras.models import Model 

imoore MAELO 15 omolog ck je 

from keras.layers.merge import concatenate 
from keras.layers import Input, Dense, Dropout 


11441144114 4444 44 READ AND TRANSFORM DATA iHEEEEEEEEEEEIEES E E 
SCRNAseq = pd.read csv('scRNAseq.txt',sep-'Nt') 

scBSseq = pd.read csv('scBSseq.txt',sep-'Nt"') 

SCATACseq = pd.read csv('scATACseq.txt',sep-'Nt') 


X scRNAseq = scRNAseq.values[:,0: (scRNAseq.shape[1]-1)] 

Y scRNAseq = scRNAseq.values[:,scRNAseq.shape[1]-1] 

X SEBSSed = SEBS values £7 O0: (SESE SRA O im 

Y scBSseq = scBSseq.values[:,scBSseq.shape[1]-1] 

X ScATACseq - scATACseq.values[:,0: (scATACseq.shape[1]-1)] 
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Y scATACseq > scATACseq.values[:,scATACseq.shape[1]-1] 


X scRNAseq = np.log(X scRNAseq * 1) 
X scBSseq - np.log(X scBSseq * 1) 
xX SEALACSEE = MI LOGO SEALANTS F L) 


TA 1 1+ 11 1 ا ا ا ا ع‎ ERE E EE ERE EE EE AUTOENCODER 4 4 1+ 1 4 4 1+ 1 + 1) ا‎ 1 1+ 1) 4 1 E EE E E E 
# Input Layer 

ncol scRNAseq - X scRNAseq.shape[l] 

input dim scRNAseq - Input(shape - (ncol scRNAseq, ), name - 
"SCRNAseq") 

ncol scBSseq = X scBSseq.shape[l] 

input dim scBSseq = Input(shape = (ncol scBSseg, ), name — 
"scBSseq") 

EOL se Sedqu sene sequsapes 

input dim scATACseq - Input(shape - (ncol scATACseq, ), name - 
"SCATACseq") 


encoding dim scRNAseq - 30 
encoding dim scBSseq - 30 
encoding dim scATACseq - 30 


# Dropout on Input Layer 

dropout scRNAseq - Dropout(0.2, name - 
"Dropout scRNAseq") (input dim scRNAseq) 
dropout scBSseq = Dropout(0.2, name = 
"Dropout scBSseq") (input dim scBSseq) 
dropout scATACseq - Dropout(0.2, name - 
"Dropout scATACseq") (input dim scATACseq) 


# Encoder layer for each OMIC 


encoded scRNAseq - Dense(encoding dim scRNAseq, activation - 'elu', 
name = 
"Encoder scRNAseq") (dropout scRNAseq) 
encoded scBSseq = Dense(encoding dim scBSseqg, activation = 'elu', 
name > "Encoder scBSseq") (dropout scBSseq) 
encoded scATACseq - Dense(encoding dim scATACseq, activation = 
نا‎ 
name = 


"Encoder scATACseq") (dropout scATACseq) 


# Merging Encoder layers from different OMICs 
merge > concatenate([encoded scRNAseq, encoded scBSseq, 
encoded scATACseq]) 


# Bottleneck compression 
Bel lene eK = Dense (S0, kernel imicializer = UML OEM, SEI VAIO = 
Mme aE, 

name = "Bottleneck") (merge) 


#Inverse merging 
merge inverse > Dense(encoding dim scRNAseq * encoding dim scBSseq 
T 

encoding dim scATACseq, 
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activation = 'elu', name = 
"Concatenate Inverse") (bottleneck) 


# Decoder layer for each OMIC 
decoded scRNAseq - Dense(ncol scRNAseq, activation - 'sigmoid', 
name = "Decoder scRNAseq") (merge inverse) 


decoded scBSseq = Dense(ncol scBSseq, activation = 'sigmoid', 
name — "Decoder scBSseq") (merge inverse) 
decoded scATACseq - Dense(ncol scATACseq, activation - 'sigmoid', 
name = 


"Decoder scATACseq") (merge inverse) 


# Combining Encoder and Decoder into an Autoencoder model 


autoencoder - Model(input - [input dim scRNAseq, input dim scBSseq, 
input dim scATACseq], 
output > [decoded scRNAseq, decoded scBSseq, 


decoded scATACseq]) 


# Compile Autoencoder 


autoencoder. compile (optimizer = 'adam', 
loss-('Decoder scRNAseq': 'mean squared error', 
Decoder SEBS SCE Binary CEOSSER EEO y 


Decoder SCEATIACSES 
'binary crossentropy']) 
autoencoder.summary () 


# Autoencoder training 
estimator = autoencoder.fit([X scRNAseq, X scBSseq, X scATACseq], 
[X scRNAseq, X scBSseq, X scATACseq], 


epochs - 130, 
baten sizs = JH 25 13952250 golit = 


52 5 

shuffle = True, verbose = 1) 
SE E ( علا‎ AER EROS Dossa Y estimator, m عت‎ rev [E Losst N) 
piirne (AVAN OEE LON LOSSES reatus Oeo Imi كك لد ارصنع‎ |) 1 


joie plor )9 SE MAE )ست عت‎ NG 
plt.plot(estimator.history['val loss']) 

ple estie db (o Model LOSS J; ole oz lle dere ) LOSS JF PIE 11د‎ 2521 (nnova) 
plt.legend(['Train','Validation'], loc = 'upper right') 


# Encoder model 
ncoder = Model(input = [input dim scRNAseq, input dim scBSseq, 
input dim scATACseq], output - bottleneck) 
bottleneck representation - encoder.predict([X scRNAseq, X scBSseq, 
X scATACseq]) 


HHHH UNIFORM MANIFOLD APPROXIMATION AND PROJECTION 
(UMAP) df AE AE AE AE AE AE HE AE EHE HE E 
model umap = UMAP(n neighbors = 11, min dist = 0.1, n components = 


2) 

umap = model umap.fit transform(bottleneck representation) 

plt EEE CES (NOLES, Ol, wu; i]; c = X SCRI; (cuo = "rablo", 
s = 10) 


plt.title('UMAP on Autoencoder: Data Integration, scNMTseq') 
plt.xlabel("UMAP1"); plt.ylabel("UMAP2") 
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UMAP on PCA: scNMTseq, scRNAseq - UMAP on Autoencoder: Data Integration, scNMTseq 
8 "mE 5 w 
MC E di 
rm "att. From Single s 
6 etar To 
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4 0 z2 
E N 
3 
E 2 š -5] 9 
3 . 
bou 
0j ELE 
VN. e 3 si 
2 et ar a 
iuf 151 © 
0 2 4 6 r - 
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né UMAPI 


الجمع بين النسخ transcriptomics‏ مع معلومات التخلق epigenetics information‏ ل 
scNM Tseq‏ 


هنا بدافع الفضولء. قمت بتغذية ge‏ الزجاجة ل Autoencoder‏ الذي يجمع 255 scNMTseq‏ 
4165و تقنية التقريب المتشعب الموحد والإسقاط Uniform Manifold Approximation‏ 
and Projection (UMAP)‏ غير الخطي لتقليل الأبعاد التي يبدو أنها تتفوق على tSINE‏ من حيث 
قابلية التوسع scalability‏ لكميات كبيرة من البيانات. يمكننا أن نرى على الفور أن المجموعة الزرقاء 
المتجانسة من حيث التعبير الجيني تنقسم إلى مجموعتين عندما يتم دمج scRINAseq‏ مع معلومات 
التخلق epigenetics information‏ من نفس الخلايا scBSseq)‏ و .(SCATA Cseq‏ لذلك يبدو 
أننا قد التقطنا عدم تجانس heterogeneity‏ جديد بين الخلايا والذي كان Gas‏ عند النظر فقطفي 
بيانات scRINAseq‏ للتعبير الجيني. هل يمكن أن تكون هذه طريقة جديدة لتصنيف الخلايا عبر 
المجموعات السكانية باستخدام التعقيد الكامل لبيولوجيتها؟ إذاكان الأمر ets‏ فإن السؤال يأتي: ما 
هو عدد الخلايا أو نوع الخلية؟ لا أعرف إجابة هذا السؤال. 


الانستنتاج 

لقد تعلمنا هنا أن المصادر المتعددة للمعلومات الجزيئية والسريرية أصبحت شائعةفي علم الأحياء 
والطب الحيوي بفضل التقدم التكنولوجي الحديث. لذلك فإن تكامل البيانات هو الخطوة المنطقية 
التالية التى توفر فهمًا أكثر شمولاً للعمليات البيولوجية من خلال الاستفادة من التعقيد الكامل للبيانات. 
يعتبر ji‏ عمل التعلم العميق مناسبًا بشكل مثالي لتكامل البيانات نظرًا لتحديثه "التكاملي 
"integrative‏ الحقيقي للمعلمات من خلال الانتشار الخلفي back propagation‏ عندما تتعلم lal‏ اع 
البيانات المتعددة المعلومات من بعضها البعض. لقد أوضحت أن تكامل البيانات يمكن أن يؤدي إلى 
اكتشافات لأنماط جديدةني البيانات لم تكن موجودة من قبل في أنواع البيانات الفردية. 
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المصدر: 


https://medium.com/towards- data-science/deep-learning-for-data- 
integration-46d51601£781 
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Deep Learning for Clinical التعلم العميق للتشخيصات السريرية‎ (11 
Diagnostics 

(إجراء تنبؤات طبية حيوية أكثر ULol‏ باستخدام التعلم العميق) 
هذه هي المقالة الرابعةفي سلسلة التعلم العميق لعلوم الحياة.في المنشورات السابقة» أوضحت كيفية 
استخدام التعلم العميق على الحمض النووي القديم والتعلم العميق لبيولوجيا الخلية المفردة والتعلم 
العميق لتكامل البيانات. نحن الآن بصدد الغوصفي الطب الحيوي Biomedicine‏ ومعرفة BUJ‏ 
وكيف يجب أن نستخدم التعلم العميق البايزي Bayesian Deep Learning‏ من أجل سلامة 
M‏ 
قدم تسلسل الجيل التالي Next Generation Sequencing (NGS)‏ تقدمًا كبيرًا لفهمنا للآليات 
المسببة للأمراض التي تؤدي إلى أمراض بشرية شائعة. ومع ذلك لا تزال كمية البيانات تشكل عنق 
الزجاجة للتحليلني الطب الحيوي. على عكس علم البيانات «Data Science‏ فإن الملايين من الأمثلة 
غير شائعة إلى حد مافي الطب الحيوي بينما البيانات عالية الأبعاد نموذجية LOS‏ لذلك فإن التعلم الآلي 
له تطبيقات محدودة للغايةفي الطب الحيوي. يؤدي نقص البيانات ومساحة المعلمات عالية الأبعاد إلى 
إعاقة الدقةفي التشخيص السريري clinical diagnostics‏ مما يؤدي إلى الكثير من التنبؤات الخاطئة 
التي لا تثبتفي التجارب السريرية clinical trials‏ . عندما تكون البيانات متناثرة /sparse‏ نادرة [scarce‏ 
صاخبة noisy‏ وعالية الأبعاد «high-dimensional‏ يساعد الإحصاء البايزي Bayesian Statistics‏ 
في عمل تنبؤات قابلة للتعميم -generalizable predictions‏ 
سنناقش هنا كيفية تنفيذ التعلم العميق البايزي Bayesian Deep Learning‏ مع 3 من أجل 
ضمان سلامة المريض وتقديم تنبؤات أكثر دقة وذكاء للتشخيص السريري. 


لماذا تكون بايزي عند تشغيل التعلم العميق؟ 

T‏ المنشور السابق أوضحت أنه عند إجراء تحليل إحصائي «statistical analysis‏ يجب أن تولي 
اهتمامًا خاصًا للتوازن بين عدد الملاحظات الإحصائية N «statistical observations‏ وأبعاد 
المساحة الخاصة «b‏ أي عدد الميزات .number of features‏ 2. اعتمادًا على كمية البيانات» أنت 
يمكن الاختيار بين الإحصاء البايزي Bayesian Statistics‏ والإحصاء المتكرر Frequentist‏ 
Statistics‏ والتعلم e.‏ / العميق .Machine/Deep Learning‏ 
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Bayesianism Frequentism Deep Learning 


NA 2H.‏ ل 

KOSI 

20; EZ RY) er 

EN output layer 
N^ 


input layer 
hidden layer 1 hidden layer 2 


P >> N 


Amount of Data 


من المنطقي استخدام التعلم العميق فقط عندما يكون لديك الكثير من البيانات 


لذلك من المنطقي استخدام التعلم العميق عندما يكون لديك الكثير من البيانات لأنه يمكنك التخلي 
عن عالم الجبر الخطي الممل والقفز إلى حفرة الأرانبفي الرياضيات غير الخطية.في المقابلء يعمل 
الطب الحيوي عادةفي الحد المقابل» N >> P‏ ويحتاج إلى احتمالات سابقة Priors‏ للتعويض عن 
نقص البيانات. هذا هو السبب الأول الذي يجعل التحليل الطبي الحيوي Biomedical analysis‏ 
يجب أن يكون بايزي. 

تخيل الآن للحظة أنك حصلت على بعض البيانات الطبية الحيوية الضخمةء فهذا أمر غير شائع ولكنه 
ليس مستحيلًا إذا عمل المرء مع التصوير أو بيولوجيا الخلية المفردةء هنا يمكنك ويجب عليك القيام 
بالتعلم العميق. لكن BUI‏ تريد أن تكون بايزيني هذه الحالة؟ 


Intelligence is to know how much you do not know 


Store recon Zander vs yen Krach 


Patient 
Safety 


(per 
ta bo ro 
O rt» 
m» 


35 هذ كذ 18 25 PD‏ 65 44 5$ $8 كه 


SINE ONE E E Magnitude of Earthquake 
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هنا يأتي السبب الثاني: ضرورة إنشاء تنبؤات أقل فئوية less categorical‏ (مقارنة بالتعلم العميق القائم 
على التكرار التقليدي (traditional Frequentist‏ من خلال دمج P‏ جه عدم اليقين uncertainties‏ 
في النموذج. هذا له أهمية كبيرة بالنسبة للمناطق ذات الأسعار الباهظة للتنبؤات الخاطئة مثل السيارات 
ذاتية القيادة «self-driving cars‏ ونمذجة سوق الأسهم «modelling stock market‏ والزلازل 
cearthquakes‏ وخاصة التشخيصات السريرية .clinical diagnostics‏ 


لماذالا يتم التحليل التكرارى للطب الحيوى؟ 

هناك العديد من الأسباب التي eu‏ أن تكون حذرًا m‏ تطبيق الإحصائيات التكرارية Frequentist‏ 
Statistics‏ على التشخيص السريري. يعتمد بشكل كبير على افتراض الحالة الطبيعية وبالتالي فهو 
حساس للقيم المتطرفة coutliers‏ ويعمل مع الإحصاءات الوصفية descriptive statistics‏ التي Y‏ 
تعكس tb‏ توزيعات البيانات الأساسية وبالتالي تفشلفي التقاط الفرق بين مجموعات البياناتفي 
مجموعة أنسكومب الرباعية Anscombe's quartet‏ بشكل صحيح. 


i | E E | LE | |‏ 4]1—34— ا ا ڪڪ ڪڪ ڪڪ ا 
18 16 14 12 10 8 6 4 18 16 14 12 10 8 6 4 
X1 X2‏ 


Y4 


١ 8 


a S. S r 
4 6 8 10 12 14 16 18 4 6 8 10 12 14 16 18 
X3 X4 


فى المقابل» ستؤدي النمذجة الاحتمالية البايزية Bayesian probabilistic modelling‏ لمجموعات 
بيانات أنسكومب إلى اختلافات كبيرةفي توزيعات الاحتمالات. 

الذكاء هو أن تعرف مقدار Lo‏ لا تعرفه 
هناك بعض الأمثلة الشهيرة التي يشار إليها عادة باسم Data Saurus‏ والتي توضح Cal‏ أن الإحصاء 
التكراري لا يمكنه التقاط الفرق بين مجموعات العينات ذات الإحصائيات الوصفية المتطابقة مثل 
المتوسط mean‏ أو الانحراف المعياري standard deviation‏ أو معامل ارتباط بيرسون Pearson's‏ 


correlation coefficient 
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لذلك. لا ينبغي استخدام التحليل التكراري المبسط للتشخيص السريري حيث لا يمكننا تحمل التنبؤات 
الخاطئة التي يمكن أن تضر بحياة الناس. 


التعلم العميق البايزي على PyMC3 &oscRNAseq‏ 

هنا سأستخدم بيانات scRINAseq‏ عن الخلايا الليفية المرتبطة بالسرطان Cancer Associated‏ 
Fibroblats (CAFs)‏ وأطبق التعلم العميق البايزي لتصنيفها بين أنوا اع الخلايا الخبيثة malignant‏ 
وغير الخبيثة non-malignant‏ بطريقة مماثلة» يمكن تصنيف مرضى السكري إلى أنواع فرعية من 
الأمراض للحصول على وصفة علاج دقيقة. سنبدأ بتنزيل بيانات التعبير من هناء وتحميلهاني «Python‏ 
وتقسيمها إلى مجموعات فرعية للتدريب والتحقق من الصحة والتصور باستخدام dall SINE‏ 
صفوف مصفوفة التعبير عبارة عن عينات .cels U*U-/samples‏ والأعمدة هي ميزات 
15 جينات genes‏ ويحتوي العمود الأخير على تسميات خلايا مشتقة من تجميع DBSCAN‏ 
غير المتحيزة -unbiased DBSCAN clustering‏ 


import numpy as np 

import pandas as pd 

imoore MAE امم 15 عات لاك‎ ck ple 

from sklearn.manifold import TSNE 

from sklearn.decomposition import PCA 

from sklearn.preprocessing import OneHotEncoder 

from sklearn.model selection import train test split 


# READ AND LOG-TRANSFORM DATA 

expr = pd.read csv('expr rpkm.txt', sep-'Nt') 
X = expr.values[:,0: (expr.shape[1]-1)] 

i expr.values[:,expr.shape[1]-1] 

X e LE ۴ 1 


# PLOT TSNE ON PCA 

X reduced > PCA(n components = 30).fit transform(X) 
model-TSNE(learning rate-10,n components-2,random state-123,perplex 
ity-30) 

tsne = model.fit transform(X reduced) 
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e. 5620662 [عشضمع)‎ -r Ol, esner Jj» e c ذل‎ gung — CIOS, © — 
10) 
plt.title('tSNE: CAFs, scRNAseq data',fontsize - 15) 
plt.xlabel("tSNE1", fontsize - 15); plt.ylabel("tSNE2", fontsize - 
1155) 
plt.show() 

SPLIT DATA INTO TRAINING AND VALIDATION SUBSETS 
XC Eran xX Cesk, E GEAN YS OSE = 


Ecdin test SM E E 4 tene; LES size = 0.4; 


stratify-None,random state-12) 

Y train-np.array(OneHotEncoder().fit transform(Y train.reshape(- 
1,1)).todense()) 

Y test-np.array(OneHotEncoder().fit transform(Y test.reshape(- 
1,1)).todense()) 


tSNE on PCA: Cancer-Associated Fibroblasts (CAFs) sub-populations, scRNAseq data 


tSNE2 


0 
tSNE1 


يمكن تمبيز أربع مجموعات بوضوحفي مخطط SINE‏ بعد ذلك» سنقوم ببناء نموذج الشبكة العصبية 
البايزية Bayesian Neural Network (BNN)‏ بطبقة واحدة مخفية و16 خلية عصبية» ويتم ذلك 
عن طريق تعيين Normal Priors‏ للأوزان weights‏ والتحيزات biases‏ وتهيئتها بقيم عشوائية. 


= , (Bayesian) 
| إن[‎ , (Bayesian) 


— W, (conventional) 


—9 b i (conventional) 


0.8 3.1 
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لبناء «BNN‏ سأستخدم 3 و أتبع النهج الموضح في مدونة Thomas Wiecki‏ الرائعة. ضمن 
النموذج. نحدد Cal‏ الاحتمال الذي يمثل توزيعًا قاطعًا LY‏ نتعامل مع مشكلة تصنيف scR.NAseq‏ 


(classes فتات‎ 4) obal متعددة‎ 


import theano 

import pymc3 as pm 

import numpy as np 

import theano.tensor as tt 


def build bayesian neural network(X, Y): 
n samples = X.get value().shape[0] 
nocdlasses = w get value().shape[t] 
n input = X.get value().shape[1] 
nm Mi dden = 16 
with pm.Model() as model: 
# Priors for unknown model parameters 


w hidden-pm.Normal('w hidden',mu-0,sd-1,shape-(n input,n hidden), 
testval = 
np.random.randn(n input,n hidden)) 


w output-pm.Normal('w output',mu-0,sd-1,shape-(n hidden,n classes), 


testval-np.random.randn(n hidden,n classes)) 
b hidden-pm.Normal('b hidden',mu-0,sd-1,shape - (n hidden), 
testval > np.random.randn(n hidden)) 
b output-pm.Normal('b output',mu-0,sd-1,shape- (n classes), 
testval-np.random.randn(n classes)) 
f Expected value of outcome 


hidden layer-pm.math.tanh(pm.math.dot(X.get value(),w hidden)-*b hid 
den) 

output layer-pm.Deterministic('output layer', 
tt.nnet.softmax( 


pm.math.dot(hidden layer,w output) 
T 
b output)) 
# Likelihood (sampling distribution) of observations 
likelihood - pm.Categorical('likelihood', output layer, 
observed - 


np.where(Y.get value())[11) 
return model 


من خلال وضع ئ على الأوزان exe‏ ندع النموذج يعرف أن هذه المعلمات بها 
«uncertainties‏ وبالتالي i> ob‏ عينات (MCMC sampler) MCMC‏ ستنشئع توزيعات لاحقة 
Posterior distributions‏ لها. سنقوم الآن بتحديد دالة تستمد عينات من المؤثرات الخلفية 
لمعلمات شبكة BNN‏ باستخدام أحد خوارزميات Hamiltonian Monte Carlo‏ (عينة أسرع 
بكثير مقارنة ب Metropolis‏ على سبيل المثال عندما يمكن حساب مشتقات المعلمات) خوارزميات 
تسمى NUTS‏ أخذ العينات هو تدريب BNN‏ . 
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pm.find MAP(maxeval = 10000) 
step = pm.NUTS() 


pm.sample(draws-draws, step-step, start-start) 


with model: 


draws - 
5152125 = 


traa = 
return trace 
theano.shared(X train) 


theano.shared(Y train) 
model - build bayesian neural network(X, Y) 


def train bayesian neural network (model): 


WX om 


trace - train bayesian neural network (model) 8 

سنقوم الآن بالتحقق من صحة تنبؤات نموذج الشبكة العصبية البايزية باستخدام إجراء الفحص التنبئي 
الخلفي Posterior Predictive Check (PPC)‏ . لهذا (A AI‏ سوف نستخدم النموذج المدرب 
ونرسم حدود القرار decision boundary‏ على مخطط ENSE‏ لمجموعة الاختبار الفرعية. يتم إنشاء 
حدود القرار عن طريق بناء شبكة 100 x‏ 100 على مخطط tSINE‏ وتشغيل تنبو النموذج لكل نقطة 
من الشبكة: بعد tS‏ تحسب المتوسط والاتحراف المعيازي Jet‏ تعيين كل نقطة على الشببكة إلى 
أحد الأنواع الفرعية للخلايا الأربعة وتصور متوسط الاحتمال mean probability‏ وعدم اليقين 


uncertainty‏ بشأن الاحتمال. 


il 
1 


Olo E) = l; X ess; OEE t 
tj omamo = X4 XS testis; L sess) 


x min, x max >= 


y min, y max — 


xx,yy-np.meshgrid(np.linspace(x min,x max,101),np.linspace(y min,y 


yy.ravel()] 


model - build bayesian neural network(X, Y) 


ppc - pm.sample posterior predictive(trace, model - model, 


TT» 


ESE 3t abi 


.shape [0], 


O aL gi 


.shape [0], 


O aL AM 


.shape [0], 


OE aL Sg 


lihood'].shape 


(np.array([ilj 


(np.array([ilj 


np.c [xx.ravel(), 


; 101)) 


max 


my grid values 
dummy out - np.array([[0,1,0,0]]*10201) 


Y.set value(np.float32 (dummy out)) 


(np.array([i 


'"likelihood' 


iai MOONE 


'likelihood' 


'likelihood' 


"11 ke tinoc" 


sum(np.array([ilj 


'likelihood' 


prog list = 1‏ الظ 
for k in range(10):‏ 
X.set value(np.float32 (my grid values))‏ 


samples = 500) 


my probs > 
for j in range (ppc['likel 
my probs.append([sum 


'likelihood' 


ppc 


ppc 


ppc 


ppc 
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ppc['likelihood'].shape[0]]) 
Z prob - np.array([np.max(i) for i in np.array(my probs)]) 
Z prob list.append(Z prob) 


Z prob mean = np.array(Z prob list).mean(axis-0) 
Z prob mean —- Z prob mean.reshape(xx.shape) 

A peoo sul = DE بردط د‎ la prog list) SEIS AE S> 0) 

Z prob std = Z prob std.reshape(xx.shape) 

25. PESOS SEG 


fig = plt.figure(figsize-(25, 20)) 

PEE: SUODLOE A2) 

(O ESSE, Ol, X testis, Ily CEU test GicxsnneuL.‏ 805542 1556م 
cmap-'viridis', s-20)‏ 

plt.title('tSNE on PCA', fontsize - 20) 
p 
2 


lt.xlabel("tSNE1", fontsize - 20); plt.ylabel("tSNE2", fontsize - 
0) 


plt.subplot (222) 

plt.contourf (xx, yy, A prob mean, cmap = plt.cm.coolwarm, alpha = 
0.8) 

jolie CEOLOEDAE (0) 

plt EEE CES testli; Oly, S testle; d] e test originell, 
cmap-'viridis', s-20) 

job zilin Gesa IER SMa E Tours vla (sos onmium (0) yne 


joie swgglor (223) 

sns.distplot (np.round(ppc['likelihood'].mean(axis-0))) 
plt.title('Calss Assignment Distribution', fontsize - 20) 
plt.xlabel("Class Assignment",fontsize-20); 
plt.ylabel("Density",fontsize-20) 


plt.subplot(224) 

cmap = sns.cubehelix palette(light-1, as cmap-True) 

DEE. COR EOE E (x vyn A Drog ete; emap = emapy, alpha = 046) 
PLE 46102532 )( 

ple 6ه‎ 8055342 (X testler Ol, X ess, Ily cw test 1ه‎ 1 
cmap-'viridis', s-20) 

jolie LOSS MERO, xXx 122 )(( م‎ Tubes wbaum (sr summ (o YU عدت‎ () )) 
plt.show() 
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tSNE on PCA 
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Calss Assignment Distribution 


Density 


| AA 
° 
-05 00 05 


10 1s 20 
Class Assignment 


حدود القرار الاحتمالية مع خريطة عدم اليقين لتصنيف CAFs‏ 


المخططات أعلاه تتوافق مع SINE‏ مجموعة الاختبار الفرعية (أعلى اليسار)؛ GtSINE‏ المجموعة 
الفرعية للاختبار مع متوسط احتمال تخصيص كل نقطة لأي من الأنواع الفرعية للخلايا الأربعة (أعلى 
اليمين)» وهو ما الاحتمال الأر جح / الشبكة العصبية التكرارية Maximum Likelihood‏ 
‘Frequentist Neural Network‏ و GtSNE‏ مجموعة الاختبار الفرعية مع عدم اليقين من 
احتمال تخصيص كل نقطة لأنواع الخلايا الأربعة (أسفل اليمين)ء وهو ناتج معين لشبكة Bayesian‏ 
Neural Network‏ هنا تشير الألوان الحمراء والزرقاء إلى احتمالية عالية ومنخفضة لتعيين نقاط 
17 لأي نوع فرعي من الخلاياء على التوالي. تشير المنطقة المظلمةفي خريطة حرارة عدم اليقين إلى 
مناطق عالية عدم اليقين. 

ما يمكننا رؤيته على الفور هو أن متوسط مخطط الحرارة الاحتمالي يحتوي على خليتين من الفئة 
الصفراء تم تعيينهما باحتمالية 100/: للمجموعة الأرجواني. يعد هذا Graas‏ خاطنًا للغاية وإثباتًا لفشل 
الاحتمال الأرجح / الشبكة العصبية المتكررة.في المقابل» تظهر خريطة حرارة عدم اليقين أن الخليتين 
الصفراء تسقطانفي منطقة مظلمة نسبيًا مما يعني أن شبكة بايزي العصبية لم تكن متأكدة على الإطلاق 
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من تخصيص هذه الخلايا لأي مجموعة. يوضح هذا المثال قوة التعلم العميق البايزيفي إجراء تصنيفات 
أكثر أمانًا وأقل جذرية والتي لها أهمية خاصة للتشخيصات السريرية. 


الاستنتاج 

لقد تعلمنا هنا أن التعلم العميق البايزي هو طريقة أكثر دقة Ul,‏ للقيام بالتنبؤات» وهو أمر منطقي جد 
لاستخدامهني التشخيص السريري حيث لا يُسمح لنا أن نخطئنفي وصفات العلاج. لقد استخدمنا 
MCMC, PyMC3‏ من أجل بناء نموذج التعلم العميق البايزي وعينة من الاحتمال اللاحق 
لتخصيص العينات للفئات الخبيثة مقابل غير الخبيثة. أخيرًاء أظهرنا تفوق التعلم العميق البايزي على 
النهج المتكررفي استخدام معلومات عدم اليقين لتجنب سوء تصنيف العينة. 


المصدر: 


https://towardsdatascience.com/deep-learning-for-clinical-diagnostics- 
ca7bc254ebac 
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Deep Learning on التعلم العميق في التصوير المجهرى‎ (12 
Microscopy Imaging 

(كشف LLI‏ الجيدة والسيئة والقبيحة باستخدام التعلم العميق) 
هذه هي المقالة الخامسةفي سلسلة التعلم العميق لعلوم الحياة.في المنشورات السابقةء أوضحت كيفية 
استخدام التعلم العميق على الحمض النووي القديم والتعلم العميق لبيولوجيا الخلية المفردة والتعلم 
العميق لتكامل البيانات والتعلم العميق للتشخيص السريري. سنتحدث اليوم عن أحد التطبيقات 
الرئيسية للتعلم العميق لعلوم الحياة وهو رؤية الكمبيوتر Computer Vision‏ لتحليل الصور المجهرية 


.microscopy image analysis 


المجهر AVI‏ الفلوري Automated fluorescence microscopy‏ هو حصان عامل للتصوير 
المجهري لعلوم الحياة الذي يولد ملايين الصور الخلوية .cellular images‏ تتفوق الشبكات العصبية 
التلافيفية d(GNNs)‏ تعلم البنية المكانية spatial structure‏ لبيانات التصوير وتتفوق على أساليب 
التعلم AM‏ التقليدية من خلال الاستخراج التلقائي للميزات automatic feature extraction‏ 


Pre-processed Detected Extracted Conventional 


3 E image objects Features machine learning 
o 
F ~ e B NL 
cao : ' * 
8 sP Statistical D ف‎ e 
o 


gs 

E 

o 

2x" 

aoa 

às 

o 4 

Activation Down-sampled Fully (dense)- Probabilistic 
responses output connections ^ distribution 

سير العمل التقليدي مقابل التعلم العميق من «Cytometry 95 «A. Gupta et al.‏ 380366— 


(2019) 


في حين أن تصنيف الصور بفئة واحدة لكل صورة (المعروف أيضًا باسم القطط مقابل الكلاب cats‏ 
(vs. dogs‏ يعد حاليًا مهمة تافهة جد إلا أن التصنيف الفعال متعدد التسميات multi-label‏ 
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classification‏ واكتشاف الكائنات يمثلان مشكلات أكثر صعوبة حيث يتم OU‏ تطوير جيل جديد 
من شبکات .CNN‏ 


سأصف هنا كيفية استخدام الشبكات العصبية الاصطناعية Mask-RCNN; Faster-RCNN‏ للكشف 


عن أنواع الخلايا على صور المجهر الفلوري fluorescence microscopy images‏ من Human‏ 
.Protein Atlas (HPA)‏ 


الصورة مقابل البيانات &.Lo.3 JJI‏ 

عندما يتعلق الأمر بتحليل الصور image analysis‏ عادة ما أتساءل عن سبب تفوق التعلم العميق 
(مقارنة بالتعلم Machine Learning A‏ والتحليل الإحصائي ¿(statistical analysis‏ العمل مع 
الصور وتطبيق أقل نجاحًا على البيانات الرقمية ¿Å numeric data‏ الواقع» من خلال العمل مع بيانات 
Omics‏ لتسلسل الجيل التالي الطبي الحيوي Next Generation Sequencing (NGS)‏ (علم الجينوم 
«genomics‏ والنسخ «transcriptomics‏ والبروتيوميات proteomics‏ وما إلى 05(« والتي تكون 
عادة رقميةء لا أرى غاليًا الشبكات العصبية neural networks‏ تتفوقني الأداء على سبيل المثال على 
الغابة العشوائية Random Forest‏ القدرة التنبؤية» وبالتالي نوصي دائمًا بالبدء بنماذج خطية بسيطة 
قبل الغوص في الرياضيات غير الخطية باستخدام التعلم العميق. 


لماذا يعد التعلم العميق 43[ لتحليل الصور؟ 

هل هو مجرد كمية هائلة من بيانات التصوير المتاحة كما يقترح جيفري هينتون eIGeoffrey Hinton‏ 
أن هناك Us‏ غير خطيفي شدة البكسل غير موجودفي البيانات الرقمية؟ هل هي مجرد بُنية spatial‏ 
structure‏ مكانية للبيانات؟ 


أول شيء تلاحظه تشغيل التعلم العميق على بيانات الصورة هو أن الحياة تصبح أسهل مقارنة بإجراء 
التعلم العميق على بيانات Omics‏ الرقمية. هناك الكثير من الأدبيات والعديد من البرامج التعليمية عبر 
الإنترنت التي يمكن أن تساعدك. أنا معجب كبير بجيسون براونلي Brownlee‏ 0 وأدريان روزبروك 
c Adrian Rosebrock‏ أذهب إلى مدوناتهم وعادة ما أجد إجابات على جميع أسئلتي.ني المقابلء 
تشغيل التعلم العميق على البيانات الرقمية Omics‏ (مثل تسلسل الحمض النووي الريبي RNA‏ 
(sequencing‏ نتفي الأساس بنفسك. لا يوجد الكثير من الأشخاص الذين يعرفون أفضل منك ما 
هي i:‏ الشبكة network architecture‏ ودالة التنشيط activation function‏ والمحسن 
optimizer‏ وما إلى ذلك التي تناسب بيانات Omics‏ الرقمية الخاصة «sb‏ لذلك تحتاج o‏ إلى تجربة 
الكثير. 
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التصوير المجهري للخلايا 

ومع ذلك. عند 2-5 GEU‏ التصوير المجهري microscopy imaging‏ ستجد الكثير من الدعم من 
المجتمع. أحد الموارد الرائعة المتاحة هو Human Protein Atlas (HPA)‏ الذي يوفرء من بين أشياء 
أخرى . بيانات صور رقمية توضح توطين localization‏ البروتيناتفي خلايا مفردة. 


HUMAN PROTEIN ATLAS ** 


zMENU HELP NEWS 


e.g. RBMG, insulin, CD36 


Research Article Recent news 
A subcellular map of the human proteome dUs ZU 20i 
Single cells within tumor and 


a a metastasis harbor genetic differences 
Tue, 25 Jun 2019 

E 3 Cell image of the month: NAT10, the 
multitasking protein 

E [^] Fri, 24 May 2019 

€ "2l Cell Image of the Month 


read the published full story of the subcellular proteome analysis ali news articles 


يعد Human Protein Atlas (HPA)‏ مصدرًا رائعًا لبيانات الصور الرقمية 


تم شرح البيانات باستخدام citizen science approach via online game‏ واستخدامهاني مسابقة 
Kaggle‏ لتصنيف الصور متعدد التصنيفات .multi-label image classification‏ يمكن تنزيل 
البيانات من هناء وهي تشمل ما يقرب من 124000 صورة تدريب و 47000 صورة اختبار 512 x512‏ 
PNG‏ ل 28 فكة أي أرقام من 0 إلى 27 رمرًا لمقصورات الخلايا cell compartments‏ حيث يتم 
التعبير عن بروتين معين. الهم من ذلك. يمكن أن توجد فئات متعددة على نفس الصورة حيث يمكن 

التعبير عن البروتيناتفي عدة أماكن من الخليةفي وقت واحد. 


name label dict - ( 

: 'Nucleoplasm', 

'Nuclear membrane', 

Muelle ET 

'Nucleoli fibrillar center', 
'Nuclear speckles', 

'Nuclear bodies', 
'Endoplasmic reticulum', 
'Golgi apparatus', 


GOK E D)‏ كن بن وت الك 
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BE 'Peroxisomes', 

O8 'Endosomes', 

10:  "'Lysosomes', 

tig 'Intermediate filaments', 
1 'Actin filaments', 

38 'Focal adhesion sites', 
14: 'Microtubules', 

i58 'Microtubule ends', 

16: "'Cytokinetic bridge', 

Trs "iios Toe" 

18: ^"'Microtubule organizing center', 
TOs 'Centrosome', 

2g Varios! oheopeleus" , 

218 'Plasma membrane', 

22s Vell Judge". 

25 'Mitochondria', 

24:  'Aggresome', 

25 Jey rosoli 

26 'Cytoplasmic bodies', 

27 Roce m erage jd 


import numpy as np 

import pandas as pd 

import seaborn as sns 

annot = Bd Bead CSU Erain CSW) 

my Classes = [sega VU) TO 1 atm amnor 11521857 ]| values] 
my Classes = fint G) EO < im My Clesses OE xy اكه‎ 5x] 
sns.distplot(my classes) 

plt.xlabel('HUMAN PROTEIN ATLAS CLASSES', fontsize - 20) 
plt.ylabel('FREQUENCY', fontsize - 20) 


FREQUENCY 


0 5 2 
HUMAN PROTEIN ATLAS CLASSES 


بالنظر إلى توزيع فتات HPA‏ يمكننا أن نرى أن البروتينات ذات الأهمية يتم التعبير عنها QUU‏ بلازم 
نووى Nucleoplasm‏ (الفئة 0( وعصارة الخلية Cytosol‏ (الفئة 25). الآن دعونا نتحقق من 5 
y P E‏ عو من 
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صور .HPA‏ اتضح أن عرض صور HPA‏ مهمة غير تافهة لأنها تحتوي على 4 قنوات بدلاً من 3 
قنوات RGB‏ القياسية التي تسلط الضوء على البروتين المهم (القناة الخضراء (green channel‏ 
بالإضافة إلى ثلاثة معالم خلوية :cellular landmarks‏ الانابيب الدقيقة microtubules‏ (الحمراء) 
والنواة nucleus‏ (الزرقاء) والشبكة الإندوبلازمية endoplasmic reticulum‏ (أصفر ). تتمثل إحدى 
طرق دمج القنوات الأربعةفي GPython‏ إدراك أن اللون الأصفر = أحمر + أخضر وإضافة نصف القناة 
الصفراء إلى الأحمر والنصف الآخر إلى القناة الخضراء. 


from PIL import Image 
import matplotlib.pyplot as plt 
def load image(path, id): 


Ro.enpranray(magesopen(pache residet eedspng 

G —- np.array(Image.open(path * id * ' green.png')) 
B > np.array(Image.open(path * id * ' blue.png')) 

Y - np.array(Image.open(path * id * ' yellow.png')) 


image - np.stack((R * Y/2, G * Y/2, B),-1).astype (np.f10oat32) 
return image 
my image = load image('/HPA/','0alfe790-bac8-11e8-b2b7- 
aclf6b6435d0') 
plt.imshow((my image).astype (np.int)) 


0 0 


100 


100 


200 


200 


300 


باستخدام load image Jl‏ قمت بإنشاء مجموعة بيانات تدريب جديدة تضم حوالي 31000 
صورة عن طريق دمج 4 قنوات لكل معرف صورة. 

بناء تعليق توضيحي لاكتشاف الخلية 

oi‏ يعد ol‏ تملا كيقية عرض صور HPA‏ ودمج القنوات الأربع» حان الوقت لإنشاء تعليقات 
توضيحية annotations‏ لاکتشاف نوع الخلية مع الشيكات العصبية Faster-R CININ‏ و Mask-‏ 
NN‏ 1]. لأغراض العرضء قمت بمراجعة عدد قليل من الصور والصور المختارة التي تحتوي على 
CIS‏ الخلايا مع البروتين jas padl‏ مقصورات (Nucleoli compartments) Nucleoli‏ 
(Nucleoli, Nucleoli fibrillar center, Nuclear speckles, Nuclear bodies)‏ وخلايا 
بدون علامات على تعبير البروتينفي مقصورات .Nucleoli‏ وبهذه الطريقة. هدفت إلى الحصول على 
3 فتات Nucleoli)‏ ولیس Nucleoli‏ وخلفية d(background‏ كل صورة من صور التدريب | 
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الاختبار الخاصة بي. بعد ذلك, أمضيت ساعتين مع Labellmg‏ لتعيين مربعات bounding boxes‏ 
إحاطة وتسميات فئة لكل خلية من أجل 45 صورة قطار HPA‏ تم حجز 5 صور أخرى كمجموعة 


بيانات اختبار لاستخدامهاني إجراء التنبؤات. 


التعليق التوضيحي اليدوي للخلايا باستخدام Labellmg‏ 


4 
چ 

7 

5 a 
B 

8 

5 

"n 


H 
i 


ISAR 2» 


1 


يقوم Labellmg‏ بتسجيل التعليقات التوضيحية للخلايا بتنسيق xml‏ الذي يحتوي على البنية 


النموذجية التالية: 


«annotation» 


«folder»5train«/folder» 
«filename»0a3028e6-bbca-11e8-b2bc- 


aclf6b6435d0.png«/filename» 


«path»/HPA/0a3028e6-bbca-11e8-b2bc-aclf6b6435d0.png«/path» 

«source» 
«database»Unknown«/database» 

</source> 

<size> 
«width»5512«/width» 
«height»512«/height» 
«depth»3«/depth» 

«/size» 

«segmented»0«/segmented» 

«object» 
«name»Nucleoli«/name» 
«pose»Unspecified«/pose» 
«truncated»0«/truncated» 
«difficult»0«/difficult» 
«bndbox» 

«xmin»317«/xmin» 
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«ymin»410«/ymin» 
«xmax»411«/xmax» 
«ymax»507«/ymax» 
«/bndbox» 
«/object» 
«/annotation» 


هنا يمكنك رؤية العرض )512 بكسل». الارتفاع )512 بكسل) والعمق )3 قنوات) للصورة» وكائن 
واحد بإحداثيات محددة بواسطة مربع الاحاطة (ymax .xmax ymin .xmin)‏ والتسمية 
Nucleoli"‏ ". يحتاج Faster-RCNN‏ إلى ملف تعليق توضيحي بتنسيق خاص مفصول بفواصل 
(csv)‏ . لإعداد ملف csv‏ هذاء نحتاج إلى تحليل تعليقات xm]‏ التوضيحية لكل صورة: 


def build annot(file): 
from xml.etree import ElementTree 


EE = ElementTree.parse (file) 
root = tree.getroot() 

sc uns = listh) 

x mex = listi) 

y mia = LASÊ (0) 


y mez = MESE) 
for boz ia FOOSE 221114) 52483 s 


x min.append(int(box.find('xmin').text)) 
y min.append(int (box.find('ymin').text)) 
x max.append(int(box.find('xmax').text)) 
y max.append(int (box.find('ymax').text)) 
my Classes = 1520 
my images = list() 
for name in root.findall('.//object!'): 
my classes.append(name.find('name').text) 


my images.append('train/' + 
rood inda MET 211652026 Ol Cex) 


annot df = pd.DataFrame(('Image': my images,'xmin': x min, 
'xmax': x max, 
"V ymmo g y meia; ETE y mes 
‘Class; omyselasses)) 
return annot df 


import os 

annot df > pd.DataFrame() 

for i in os.listdir('/HPA/train annot/'): 

annot df = pd.concat([annot df, build annot('/HPA/train annot/' 

ar Sense (35) 9] م‎ 

ignore index-True) 

annot df.to csv('/HPA/annot.txt', header-False, index-False, 

SEPTATE) 


.Faster-RCNN 


181 .12( التعلم العميق في التصوير المجهري 


Faster-R CNN cu Jai‏ لاكتشاف الخلايا 

لقد تخطيت هنا شرح كيفية عمل Faster-RCNN‏ فهناك الكثير من الأدبيات التي تتناول 
الخوارزمية. أذكر فقط أن Faster-R CNN‏ تستخدم شبكة اقتراح المنطقة Region Proposal‏ 
Network (RPN)‏ التي تنشئ مقترحات المنطقة لشبكة الكاشف Detector‏ التي تقوم باكتشاف 
الكائن الفعلي. ومن ثم فإن دالة الخطأ loss function‏ لشبكة Faster-R CNN.‏ تجمع بين 
المساهمات من الانحدار regression‏ (تحديد الخلايا مع مربعات الاحاطة) ومهام التصنيف 
oð) classification‏ فئة لكل خلية المحددة .(localized cell‏ يمكن تثبيت Faster-R CNN‏ 
من .https://github.com/kbardool/keras-frcnn‏ يعد تدريب نموذج Faster-RCNN‏ 
سهلاً مثل الكتابة: 


PME MOR wrain HEED 90y -0 simple > AOI > E E e == 
num epochs 500 


هنا annottxt"‏ هو ملف التعليق التوضيحي الذي تم إنشاؤهفني القسم السابق. بشكل افتراضي» 
يستخدم Jg Faster-RCNN‏ التعلم باستخدام أوزان من .ResNet50‏ استغرق تدريب Faster-‏ 
RCNN‏ على 45 صورة مع 322 من فثات 1071116011 المشروحة و 306 Not Nucleoli‏ ما يقرب 
من 6 ساعات لكل فترة epoch‏ على الكمبيوتر المحمول الخاص بي باستخدام 4 نوى لوحدة المعالجة 
المركزيةء لذلك تمكنت فقط من الانتظار لمدة 35 فترة. يبدو أن منحنيات التعلم توضح أن مهمة 
التصنيف وصلت إلى التشبع saturation‏ بينما كان الانحدار (تحديد الخلايا) بعيدًا عن الوصول إلى 
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لعمل تنبؤات حول مجموعة الاختبار باستخدام 107127 CSS. Faster-R‏ ببساطة: 

python test frcnn.py -p test 
هو المجلد الذي يحتوي على الصور من مجموعة بيانات الاختبار. دعونا نعرض‎ "test هنا "اختبار‎ 
Nucleoli gas صورة اختبارية للتحقق من مدى نجاح النموذجفي اكتشاف الخلايا بالبروتين المعبر‎ 
فئة‎ yJ) Nucleoli تحتوي على البروتين المعبر عنهفي‎ Y والخلايا التي‎ (Nucleoli (فئة‎ 
:(Nucleoli 


INUCIEeOII: 2I 


الو الأصلية OU)‏ والصورة بعد تطبيق اكتشاف كائن Faster-R CINNN‏ (يمين) 


هناء على اليسار صورة الاختبار الأصلية. من الواضح أن خليتين تحتويان على بقع خضراء زاهيةفي 
الوسط تلك هي النوى التي تظهر بسبب البروتين محل الاهتمام الذي يظهر تعبيرًا قويّافي هذه «alea‏ 
لذلك يجب أن تنتمي هاتان الخليتان إلى فئة Nucleoli‏ . لا يبدو أن باقي الخلايا تحتوي على البروتين 
gas pal‏ مناطق 171016011 لذا يجب أن تنتمي إلى فئة Not Nucleoli‏ على اليمين توجد صورة 
الاختبار مع المربعات المحيطة وتسميات الفئة المحددة بواسطة نموذج Faster-R CNN‏ المدرب. 
هنا يمكننا أن نرى أن النموذج اكتشف بشكل صحيح خليتين بهما بقع خضراء dii‏ مناطق 
Nucleoli‏ بينما يبدو أن المربع المحيط الثالث هو تنبؤ إيجابي خاطئ «false positive prediction‏ 
وليس من الواضح بالضبط ما الذي اكتشفه النموذج بثقة عالية (احتمال 91 /): يشتمل مربع الاحاطة 
على خلايا متعددة وعلى الرغم من وضع تسمية فئة Nucleoli!‏ النموذج, فإننا لا نلاحظ الخلايا 
ذات النوى المرئية داخل مربع الاحاطة. 


183 12( التعلم العميق في التصوير المجهري 


توضح هذه الصورة انطباعي العام حول استخدام Faster-R CNN‏ لاكتشاف الخلايا: فهي ليست 
sl»‏ مثاليةفي تحديد الخلية «cell localization‏ ولكن قد يؤدي المزيد من التدريب إلى تحسينها. 
دعونا نرى ما إذا كان Mask-R CNN‏ يمكنه تحسينه. 


تدريب Mask-R CNN‏ لاکتشاف الخلايا 

ينتمي Mask-RCNN‏ (بالإضافة إلى (Faster-RCNN‏ إلى عائلة RCNN‏ من الشبكات 
العصبية الاصطناعية المعروفة بدقة (à lel‏ اكتشاف الكائنات object detection‏ مقارنة بالعاتلات 
الأخرى. مثل SSDs YOLO‏ والتي لا أغطيها هنا. بالإضافة إلى اكتشاف الكائن» يسمح Mask-‏ 
RCNN‏ أيضًا بتجزئة الكائن USJ object segmentation‏ لن نستخدمه هنا. يمكن تثبيت 
Mask-RCNN‏ من Us. https://github.com/matterport/: Mask RCNN‏ من السھل 
جد تشغيل Faster-RCNN‏ (يحتاج بشكل أساسي إلى إعداد ملف التعليقات التوضيحية 
(hi annotation file‏ يتطلب Mask-RCNN‏ المزيد من البرمجة» لذا يرجى التحقق من نوتبوك 
Jupyter‏ الكامل على github‏ الخاص بي للحصول على مزيد من التفاصيل. أشرح هنا الخطوات 
الرئيسية لسير العمل الذي يتبع بشكل أساسي هذا البرنامج التعليمي الممتاز. تتمثل خصوصية Mask-‏ 
CNN‏ ۸ف أن البيانات تتم معالجتها بواسطة كائن مجموعة البيانات الذي سيتم استخدامه لتزويدهفي 
Mask-R CNN‏ للتدريب والاختبار. 


from os import listdir 

from numpy import zeros 

from numpy import asarray 

from mrcnn.utils import Dataset 


class HPADataset (Dataset): 


def oad cderaser (selt, dataset cs ES easi ise) Es 
gelr add clases Saa SOE, l, "ede 
SOLE ede elass (CE EEE, A, NCE الك ال‎ 
annotations dir - dataset dir 1 'train annot/' 
images dir = dataset dir + 'train/' 
for i,filename in 
zip(range(len(listdir(images dir))),listdir(images dir)): 
image id > filename[:-4] 
anb LS train eme) 3L >= 40s 
continue 
lf not rs train and 1 « 40; 
continue 
img path > images dir * filename 
anngpathe-canmotateonsmduretimagesidaspesems 
self.add image('dataset', image id-image id, 
path-img path, 
annotation-ann path) 


def load mask(self, image id): 
info = self.image info[image id] 
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path = info['annotation'] 
boxes, w, h, my classes - extract boxes (path) 
masks = zeros([h, w, len(boxes)], dtype-'uint8') 
eless ids = listh) 
for i in range (len (boxes)): 

box = boxes[i] 

row S, row e = box[1], box[3] 

COL i GOL e = 0اعدة5‎ 7 OZ] 

masks[row s:row e, col s:cole, i] = 1 

E my Classes El NI GOMMA 


class ids.append(self.class names.index('Nucleoli!')) 
else: 
class ids.append(self.class names.index('Not 
Nucleoli')) 
return masks, asarray(class ids, dtype-'int32"') 


def image reference(self, image id): 
info = self.image info[image id] 
return info['path'] 


ram Seb = HERA EAS) 

train set.load dataset('/HPA/', is train-True) 
train set.prepare() 

print('Train: $d' $ len(train set.image ids)) 


Ee SE Set -OHPADdtaseb 

test set.load dataset('/HPA/', is train-False) 
testa Ser preparel) 

BERE Mese. denies Set mege tesh) 


نحن هنا نهدف إلى اكتشاف الكائن بدلاً من التجزتة. لذلك سنتعامل مع مربعات الاحاطة كأقنعة 
masks‏ لذلك سيتم تحميل load mask" Jl»‏ الواقع إحداثيات مربعات الاحاطة. يمكننا عرض 
صورة تدريب مشروحة عشوائية باستخدام دالة "display instances"‏ العملية من :Mask-R CNN‏ 


from mrcnn.visualize import display instances 
from mrcnn.utils import extract bboxes 


image id - 5 

image > train set.load image(image id) 

mask, class ids, X = train set.load mask(image id) 
bbox = extract bboxes (mask) 

display instances(image, bbox, mask, class ids, 
train set.class names) 
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Not Nucleoli 


LIRE 


Not Nucleoli 


Not Nucleoli 


Mask-R CNN إعداد الصورة المشروحة للتدريب باستخدام‎ e 


Nucleoli 


transfer learning سنستخدم نقل التعلم‎ .Mask-RCNNN كل شيء جاهز لتدريب نموذج‎ oW 
pre-trained لاكتشاف الكائنات المدربة مسبقًا‎ Mask-R CNN ونبدأ من الأوزان من نموذج‎ 


.COCO UL. على مجموعة‎ object detection 


from mrcnn.config import Config 
from mrcnn.model import MaskRCNN 


class HPAConfig (Config): 
NAME = ROA كك‎ 
$t Number of classes (background * Nucleoli f Not Nucleoli) 
INUMBGISAS SES MEIN 11 35 1 
# Number of training steps per epoch: number of images in the 


ER EPOCH - 40 


training set 


STEPS P 


config - HPAConfig() 
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model - MaskRCNN (mode-'training', model dir-'/HPA/', config-config) 
model.load weights('/HPA/mask rcnn coco.h5', by name-True, 
exxedlbelsc [wee elass Jhon, Vineis BOOS FOL, 
"mrcnn bbox", "mrcnn mask"]) 
modest asi الله عدا‎ Set, TESE SEE, 
learning rate-config.LEARNING RATE, 
pochs-5, layers-'heads') 


كان تدريب Mask-R CNN‏ أسرع بشكل كبير مقارنةً ب Faster R CNN‏ استغرقت 5 8 واحدة 
ساعتين فقط X3)‏ سرعة مقارنة ب (Faster-R CNN‏ على الكمبيوتر المحمول الخاص بي مع 4 
نوى من وحدة المعالجة المركزية» وتوقفت عن التدريب بعد 5 فترات فقط لأن نتائج الكائن كان 
الاكتشاففي مجموعة بيانات الاختبار بالفعل أكثر من مرض. هنا للمقارنةء أقدم صورة الاختبار الأصلية 
(على اليسار) والصورة مع الثقة العالية (أكثر من 170 احتمال) مربعات الاحاطة وتسميات الفتات 
الموضوعة بواسطة نموذج Mask-RCNN‏ المدرب. 


الصورة الأصلية (يسار) والصورة بعد تطبيق اكتشاف كائن Mask-R CNN‏ (يمين) 


نلاحظ زيادة مذهلةني دقة تحديد الخلاياء ويبدو أن جميع مربعات الاحاطة تحتضن الخلايا بشكل 
مثالي تقريبًا. يبدو أن إحدى الخلايا تحمل تسمية خاطئة "Nucleoli'‏ على الرغم من عدم وجود بقع 
خضراء واضحة يمكن ملاحظتها داخل النواة. ريما سيستفيد النموذج من المزيد من التدريب. بشكل 
«ele‏ يُظهر Mask-RCNN‏ تحسنًا GÓ pale‏ اكتشاف الخلايا مقارنةً ب .Faster-R CNN‏ 

يمكن الآن استخدام نموذج Mask-RCNN‏ المدرب هذا لإجراء مسح ضوئي عالي الإنتاجية 
high-throughput‏ للصور من أجل التشكل الخلوي الخاص special cellular morphology‏ 
(مع البروتين das padl‏ مناطق (3Nucleoli‏ هذه الحالة بالذات) دون فحص بصري visual‏ 


inspection 
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الانستنتاج 

في هذا المنشور. تعلمنا أن الفحص المجهري الآلي ينتج كميات كبيرة من بيانات الصور الرقمية التي 
تعتبر مناسبة بشكل مثالي للتحليل باستخدام التعلم العميق. يعد اكتشاف الأشكال الخلوية cellular‏ 
iaga morphologies‏ صعبة على الرغم من توفر الكثير من الادبيات والنماذج. اختبرنا نماذج اكتشاف 
الكائنات Faster-R CNN‏ و Mask-R.CNN‏ باستخدام صور مشروحة بفتات متعددة من 
.Human Protein Atlas (HPA)‏ تفوق dMask-RCNN‏ الأداء على Faster-R.CNNN‏ من 
حيث جودة وسرعة اكتشاف نوع الخلية. 


المصدر: 


https://towardsdatascience.com/deep-learning-on-microscopy -imaging- 
865b521ec47c 
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13( التعلم العميق على جينات الإنسان Deep Learning on iladi‏ 
Neanderthal Genes‏ 
(الكشف عن مناطق أصل إنسان نياندرتال من خلال التعلم العميق) 

هذا هو المنشور السابع من عمودي التعلم العميق لعلوم الحياة حيث أقدم أمثلة ملموسة عن كيفية تطبيق 
التعلم العميق الآنفي علم الأحياء الحسابي Computational Biology‏ وعلم الوراثة Genetics‏ 
والمعلوماتية الحيوية Bioinformatics‏ المنشورات السابقة» أوضحت كيفية استخدام التعلم 
العميق للحمض النووي القديم Deep Learning for Ancient DNA‏ وبيولوجيا الخلية المفردة 
Single Cell Biology‏ وتكامل بيانات «OMICSs Data Integration OMIC‏ والتشخيص 
السريري Clinical Diagnostics‏ والتصوير المجهري -Microscopy Imaging‏ سنغوص des!‏ 
التاريخ المثير للتطور البشري History of Human Evolution‏ ونتعلم أنه من السهل استعارة 
المنهجية من معالجة اللغة الطبيعية Natural Language Processing (NLP)‏ وتطبيقها على علم 
الوراثة السكانية البشرية من أجل استنتاج bts‏ تدخل الإنسان البدائي Neanderthal‏ 
++ الجينوم البشري الحديث. 


تاريخ موجز: خارج أفريقيا 

عندما هاجر أسلاف البشر المعاصرين من إفريقيا ما بين 50000 و70000 سنة» واجهوا إنسان 
نياندرتال Neanderthals‏ ودينيسوفان .Denisovans‏ وهما مجموعتان من أشباه البشر القدامى 
الذين سكنوا أوروبا وآسياني ذلك الوقت. نحن نعلم أن البشر المعاصرين تزاوجوا مع كل من إنسان 
نياندرتال ودينيسوفان نظرًا لوجود دليل على وجود الحمض النووي الخاص بهمني جينومات البشر 
المعاصرين من أصل غير أفريقي. أصبحت هذه التطورات الجينية العظيمةفي تاريخ التطور البشري 
ممكنة بسبب تسلسل جينومات إنسان نياندرتال ودينيسوفانني عامي 2010 و2012. على «ui‏ من 
قبل مجموعة .Svante Pääbo‏ 


X2] i 


IN 1 
lerthal Genome Sequenced 
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كانت هناك محاولات قليلة لاستنتاج المواقع الدقيقة لشرائح الحمض النووي الموروثة من إنسان 
نياندرتال ودينيسوفان. لقد استخدموا موارد الجينوم المختلفة مثل مشروع 1000 جينوم وحسبوا 
مقاييس مختلفة للتشابه المحلي لجينوم غير أفريقي تجاه جينوم الإنسان البدائي عالي الجودة والتباعد 
فيما يتعلق بالجينومات الأفريقية (الشكل الأيمن أدناه). 


Neanderthal 

Human chromosomes with Test 

highlighted segments of Acus 

Neanderthal introgression 
14 LLL 1 Ara. 
3 E TT UT LAIT Neanderthal 
2 REIT s PE NR | " | oos | | 
n UEGLZELGETENII Ho LaETIT TET] est 
1o REGO TENET ORE [os || 
arm mart LUNA TUS OM] African ا‎ 
s FENITHTETERE FTI TRL 
z C Fic TURN E I I 
e IT TUER EIEEETT EGRE: UE UD UIEG E 
si EEUNAD. E C7 an n JI ln Tm Neanderthal 
Tam FS FHEM AES FI IF! ١ NUN YR PVT 
د‎ ETT 8511-7 115-15101117 Test 
Prom mI ' TERI HIT zi PUE 
DD: Hi CUT VETT zi) African 


مقاييس التشابه هذه (إحصاءات موجزة) على الرغم من كونها قابلة للتفسير وفعالة تؤدي إلى فقدان 
المعلومات لأنها تحاول التقاط جزء من الحمض النوويني رقم واحد دون النظرفي التسلسل المرتب 
للنيوكليوتيدات نفسها. تستخدم المحاولات الأخرى لمسح إدخال الإنسان البدائي عبر الجينوم نموذج 
ماركوف المخفي Hidden Markov Model (HMM)‏ وهو نموذج بلا ذاكرة لا يفسر مرة أخرى 
الارتباطات طويلة المدى بين النيوكليوتيدات على طول تسلسل الحمض النووي. هذا هو المكان الذي 
يمكن أن تكون فيه قوة التعلم العميق لمعالجة التسلسلات الجينومية الأولية والاستفادة من الذاكرة 
الطويلة لرابط النوكليوتيدات عبر الجينوم مع CNN RNs / LSTMS‏ مفيدة بشكل لا يصدق. 


إمكانات التعلم العميق لعلم الجينوم القديم 

في الوقت الحالي» يتم تجاهل التعلم العميق بشكل أساسيفي علم الأحياء التطوري Evolutionary‏ 
Biology‏ على الرغم من إمكاناته الكبيرة للعمل مع بيانات الجينوم التي تمثل أحد مصادر البيانات 
الرئيسيةفي مجالات العلوم التطورية الحالية وأبحاث الحمض النووي القديم. تستخدم المحاولات 
الأخيرة بيانات الجينوم المحاكية simulated genomic data‏ على الرغم من توافر بيانات الجينوم 
الحقيقية التي غالبًا ما تحتوي على مناطق مشروحة بوظيفة بيولوجية مفهومة جيدا. التعلم العميق 
مناسب بشكل مثالي للعمل مع علم الجينوم Genomics‏ وعلم الجينوم القديم Ancient‏ 
Genomics‏ لمجرد أن جينوم واحد هوني الواقع بيانات كبيرة one genome is actually a Big‏ 


90 


غم 
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1000 من‎ stretches لإدراك ذلك. فكر فقطفي تقطيع الجينوم الطويل 3 * ?10 إلى امتدادات‎ Data 
نيوكليوتيد والتي تجلب أمثلة تدريبية 3 * 106 لاستخدامهاني التعلم العميق بشرط أن يكون التعليق‎ 
DNA يمكن اكتشافه لكل امتداد من امتدادات الحمض النووي‎ (labels التوضيحي (التسميات‎ 


stretches‏ هذه كمية هائلة من بيانات التدريب! 


a Curate data b Select architecture, train c Evaluate d Interpret 
Sequence Label CNN 
ACCTA : Predicted 
E س‎ 
— Training FIT - 
TCATT Actual 
TCATT -|rFP TN 
GAACT = CET 
FEET [Y], | Precision = ل‎ 
[9] Validation TP + FP 
TP 
— Recall = 
TP «FN i 
—— Test Feature importance 
- j [0] © Internal unit © Output 


لقد أوضحت كيفية استخدام هذه الفكرة للتمييز بين تسلسل الحمض النووي القديم والحديثفي مقالتي 
السابقة. هناك استخدمت شبكة عصبية تلافيفية أحادية الأبعاد 1D Convolutional Neural‏ 
Network (CNN)‏ وتمثيلًا مشفرًا واحدًا one-hot-encoded EL.‏ للتسلسلات. سأقوم هنا 
بتوضيح طريقة أخرى لتمثيل تسلسل الحمض النووي للإدخالفي التعلم العميق. يرجى إلقاء نظرة على 
الشكل الأيسر obo‏ وهذا ما نعنيه عادة بالنص text‏ ومع ذلك ليس هذا ما يقصده الناسفي علم 
الجينوم بالنص. يظهر ما يقصدونه بالنص إلى اليمين. تسلسل الحمض النووي هو نص! يبدو الأمر 
Des‏ ولكن مع مرور الوقت laus‏ رؤية الأشياءفي سلاسل نصية strings‏ ماذا لو أخبرتك أنني أرى جيئًا 
gene‏ هناك؟ ماذا لو أخبرتك cul JA‏ جين مرتبطا بقوة بمرض السكري من النوع 2 Type2‏ 
Diabetes (T2D)‏ ومن المحتمل أننا ورثنا هذا الجين من إنسان نياندرتال؟ 


GCICAMCAAGAAMIMICAACAAGTGGTGT 
TOCCCOGTCTCTGGGGGAGGCGTGGCTUC 


x 


TTICTCICTGCTTCC 7 A6 
GEAMCAGAGATCACCACAGC 126 66 
AGCCCAGM 


ماذا يقصد الناس عادة بالنص (ud)‏ مقابل ما يقصده علماء المعلومات الحيوية بالنص (يمين): 
جين SLC16A11‏ 


ICACGGOGATTGAATTNTGIACACACACA 
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الآنء إذا كان تسلسل الحمض النووي عبارة عن نصء فيمكننا تطبيق جميع الأجهزة من معالجة اللغة 
الطبيعية (NLP)‏ على مثل هذه النصوص. ومع eS‏ أين الجملني نصوص الحمض النووي وأين 
الكلمات؟ إذا توقعنا ما إذا كانت مجموعة من تسلسلات الحمض النووي (يمكن اعتبار المجموعة 
(Ga bunch‏ موروثة من إنسان نياندرتال el‏ لاء فيمكن اعتبار تسلسل DNA‏ واحد من المجموعة 
جملة من النصء و K-mer‏ (التسلسل الفرعي (sub-sequence‏ ككلمة. 

Sequence 


GATCGTAC 


Kmers 
Neanderthal introgressed vs depleted 


"E Bag of Words 
GATCGITAC 


RAN 
Sentence / Text 


GATCGTA 
GATEGTAG 
GATCG ATCGT TCGTA CGTAC 


تسلسل الحمض النووي عبارة عن جملة يمكن تقسيمها إلى ck-mers‏ ويمكن اعتبار k-mers‏ 
محددة المسافات ككلمات 


بمجرد تحويل تسلسلات الحمض النووي إلى k-mers‏ محددة بمسافة / كلمات space-delimited‏ 
ck- mers / words‏ نكون قد انتهينا. يمكننا الآن اللجوء إلى تقنيات المعالجة اللغوية الطبيعية المتقدمة 
واستخدامها على سبيل المثال نموذج بسيط من حقيبة الكلمات Bag Of Words‏ لمقارنة ترددات 
الكلمات / frequencies of words / k-mers k-mers‏ بين التسلسلات الموروثة من إنسان 
نياندرتال وتسلسل السلالة القديمة المنضبة .depleted archaic ancestry‏ 

تحضير التسلسلات لتحليل المشاعر 

الآن دعونا نوضح كيفية استخدام التعلم الآلة/العميق ومعالجة اللغة الطبيعية (NLP)‏ عمليًا لتحديد 
مناطق إدخال الإنسان البدائيفي الجينوم البشري الحديث. سأقوم هنا بصياغة المشكلة التالية لحلها: 
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أرني جزءا من الحمض النووي الخاص بك وسوف أتوقع مدى احتمالية توريثه من إنسان 
نياندرتال 


كمجموعة بيانات تدريبية» سنستخدم إحداثيات المناطق المرشحة لإدخال الإنسان البدائي 
Neanderthal introgression‏ من Vernot‏ و Akey‏ . علم 2016 تم تحديده باستخدام - * 5 
statistic‏ على الأوروبيين والآسيويين من مشروع Genomes‏ 1000( يمكن تنزيل البيانات من هنا. 
استخدمنا ملف أنماط الفرد المتقدم  introgressed haplotypes file‏ 
 LL.callsetEUR.mr 0.99.neand calls by hap.bed.merged.by chr.bed‏ واخترنا 
إحدائيات فريدة فقطء لذلك انتهى بنا المطاف مع 83601 منطقة من أصل إنسان نياندرتالفي 


الأوروبيين المعاصرين. دعونا نقرأ الإحداثيات ونلقي نظرة على توزيع الطول لمناطق تقدم الإنسان 
البداء 
es <‏ 


import pandas as pd 

import seaborn as sns 

import matplotlib.pyplot as plt 

intr coords - pd.read csv('Akey intr coords.bed', header - None, 
Sep = EL) 

imer MEMES = imer COOLS. رة ] مهلل‎ a2]-assx coords LOC, 1] 
sns.distplot(intr lengths) 

plt.title("Distribution of Lengths of Neandertal Introgressed 
Regions", fontsize - 20) 

plt.xlabel("Lengths of Neandertal Introgressed Regions", fontsize - 
20) 
plt.ylabel("Frequency", fontsize - 20) 


Distribution of Lengths of Neandertal Introgressed Regions 
0000014 


0,000012 


0,000010 


0,000008 


Frequency 


0.000006 


0.000004 


0,000002 


0.000000 - — 
0 200000 00000 E 800000 1000000 1200000 


0000 
Lengths of Neandertal Introgressed Regions 
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deo إلى 1.2 میا‎ eub Je 10 من‎ cli الرتسان البدای‎ oa] شرل مقاط‎ of ie ol Us, 
الثانية بمتوسط ~ 100 كيلو بايت. سنقوم الآن باستخدام هذه الإحداثيات واستخراج التسلسلات‎ 
ويمكن تنزيله من‎ fasta الفعلية من نسخة 1819 من الجينوم المرجعي البشري الذي له تنسيق ملف‎ 
لاستخراج التسلسل ولكن من الأسرع القيام بذلك باستخدام‎ Python هنا. يمكننا بالطبع استخدام‎ 

18 المستندة إلى Coe‏ 


import subprocess 
a = 0 
wawa لان )ا سوه‎ imer تمد فتك‎ 6227 FE) as mos 
for i in range(intr coords.shape[0]): 
COE = str leti (inte COOLS, AEE, O) se 
t sterline Coorde s iloefi, L) 
gtr (iate حك ممت‎ Miceli, 21 y 
SUODEOCE SSE EUR LL 222205625 a MOLI EAI, 
SEE ) 4632 لك‎ lS Sreco = 3593) 
aca mr il 
if a%10000 == 
print('Finished ' + str(a) + ' Neanderthal introgressed 
haplotypes') 


سنقوم الآن ببناء اطار بيانات Pandas‏ بإحداثيات أجزاء خارج إحداثيات إدخال الإنسان البدائي. لهذا 

الخغرض» سنقوم بشكل عشوائي برسم امتدادات الحمض النووي DNA stretches‏ بنفس طول مناطق 

الإدخال على نفس الكروموسوم والتحقق مما إذا كانت هذه الامتدادات تتقاطع مع أي من المناطق 

المتقدمة oige .introgressed regions‏ الطريقة. نقوم ببناء مجموعتين من الإحداثيات غير 
المتداخلة: المناطق المتقدمة introgressed‏ والمستنفدة depleted‏ 

import numpy as np 

EME sizes = لمم‎ Fed CSUN ROO Gz rait, Meade = None, SEO = 

ET) 

EME sizes = CRE sizas Crool; 27 Al, axis 


list = Il; stare lise = [lg eel list =‏ عله 
OEE lengens = LIENE coords loela, 2]‏ 


= 1) 
m 


imer XeXoxoxerlsi c at eee 


for i in range(intr coords.shape[0]): 
GRE Qf — 
iare عرس كك )كك م مت‎ EOFS OSD [inti coords 1 ]عت‎ i (9)] 113) T 
overlap - True 
while overlap -- True: 
reg start = np.random.randint(1, int(chr sizes[chr sizes[0] 


NEE COWES. AIOE [Lab ON eels y 3:1) 
EC GAC = EC Start r inti Llencmha [i] 
tor 35 12 range (Chr ا غك‎ 22-252 KONE 
bil = ene (Es AOC [3 p L] 


b2 = enr (oit الت هلاه‎ 2] 
abit (zeg stare > bl cus! rec start < b2) (oue (reg CNS > Di 
and reg end « b2) or N 
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(lou > reg stare emd lob < reg CAC) (xe (OZ > 76g Start 
and 52 < reglend): 


overlap = True 
break 

else: 
overlap = False 


Car list agend (iner Coarda dleei; 0) 
start list.append(reg start) 
end list.append(reg end) 
acari 
if a%10000 == 0: 
print('Finished H str(a) * ' Neanderthal introgressed 


haplotypes') 

EOL coords = pe 3 عسوت ضوت‎ )) 70" che list, "IUS stare Je, "ZU 
end list]) 

Cepl Cod. EO Cev (Ake Ceol كك دم مت‎ edl, index = Pelse, Meade = 
False, sep = "\t") 


بمجرد بناء إطار البيانات الذي يحتوي على مناطق من أصل إنسان نياندرتال المنضب يمكننا مرة أخرى 
استخراج تسلسل الحمض النووي الفعلي من hg19 fasta‏ المطابق للأجزاء المستنفدة باستخدام 
«samtools‏ هنا أتخطى هذه الخطوة للإيجاز ولكن تحقق من نوتبوك Jupyter‏ الكامل على github‏ 
لرؤية التفاصيل. بإلقاء نظرة فاحصة على التسلسلات المتقدمة introgressed‏ المستخرجة والمستنفدة 
4ه المستخرجة. يمكننا أن نلاحظ عددًا قليلاً من التسلسلات المحتوية على النوكليوتيدات. 
هذه هي البيانات المفقودة missing data‏ علم الجينوم» أي المواقف التي لم يتم حلها بواسطة 
تقنيات التسلسل. من أجل عدم السماح للبيانات المفقودة بالتأثير على تحليلناء فقد حذفت التسلسلات 


التي تحتوي على نوكليوتيد IN‏ واحد على JPI‏ ويمكن القيام بذلك :BioPython (ies‏ 


from Bio import SECLE 
imer Ele = Holo AMEE EOESIORS s Tat 
depl file = Mol gcle piliers e gae ns 
a= gs x e 
عاضا‎ cse ) لان‎ imer elesem tat, tat) as 
intr out,open('hg19 depl clean.fa', 'a') as depl out: 
Tow dace, Cepl iq vegs((SeenO.jesese(abaExe rile, EASES), 
Segiok parse (depi miea sra 
pper iner = AmE. SEO woer) 
upper depl - depl.seq.upper() 
e — m x d 
if a$10000 == 0: 
print('Finished ' * str(a) * ' entries!) 
iE N not ia دك هرضي ديات‎ imer) camo! VIN" mot m 
str(upper depl): 
الوك‎ 2 SEC = ISE mm 
Sel OR WEN EE RENEE, inte Owe, EES) 
depl Sed = Upper depi 
SEO wr HEE (AES, depl out, 'fasta") 
i-i-c*1l 
else: 
continue 
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print('We have processed ' + str(a) + ' entries and written ' + 
ETE (aL) 
+ ' entries to two fasta-files') 


الآن تم إعداد البيانات لإدخالهاني تحليل المعالجة اللغوية الطبيعية. دعنا ننتقل إلى نموذج حقيبة 
الكلمات da! Bag Of Words‏ أي النظرني الاختلافني تكرار k-mers‏ بين ت = 
Neanderthal‏ المقدمة مقابل المستنفدة. 


JI n J -‏ ^ اعر: [o oe oe‏ مقابل 7 0 
lins‏ بتنسيق التسلسلات من ملفي fasta‏ كنصوص مع k-mers‏ محددة المسافات ككلمات. بسبب 
قيود ذاكرة الكمبيوتر المحمول» قرأت فقط 10000 نيوكليوتيد أولّا م كل تسلسلء ثم استخدمت دالة 
5 التي تقسم كل تسلسل إلى k-mers‏ ودمجت k-mers‏ بطريقة محددة بمسافة» (QUA‏ 

النهاية. كان لدي قائمة الجملء كل منها يمثل قائمة الكلمات / .k-mers‏ 


from Bio import SECLE; 
from Bio.Seq import Seq 
mE mile = MOLI imer Clean a, cepol Ele = Vagle Cepl elesem. ten p 
e = 0 
intr segs = []; depl seqs = [] 
EOE wate, Cepl im ZIPS perse (imer zile, EASES), 
Geco parse (Cepl mile, rastai): 

cutoff = 10000 

my AEE SOG = SEE (iner, SO) 101551583215 [ 

my لمعك‎ Sed = SEF (dEDL secreto 

intr seqs.append(my intr seq) 

depl seqs.append(my depl seq) 

e =e + 1 

if e$20000 == 0: 

print('Finished ' ١ str(e) * ' entries!) 


def getKmers (sequence, size): 


return [sequence[x:x-*size].upper() for x in range (len (sequence) 
- size + 1)] 
kmer = 5 
NEE ES = ll "Jet (Getmers (i; fames) ( EOC 1 im Al ا‎ 
Cepl texte = JD" 7 متم ف‎ (get mersi, AEE) EOE 1 sum cleyod Segs] 


الآن يمكننا أن نتخيل بسهولة ترددات (k-mer‏ متواليات Neanderthal‏ المتقدمة والمستنفدة 
باستخدام فئة Python (Counter‏ من أجل عد الكلمات بكفاءة. 


from collections import Counter 

import matplotlib.pyplot as plt 

fig = plt.figure(figsize = (20,18)) 
fig.subplots adjust(hspace = 0.4, wspace = 0.4) 


plr swgolot (2r db. i) 

Hace sentences = [icem splice Y) Or item ia Imer CETS] 

D = dict(Counter([item for sublist in intr sentences for item in 
sublist]).most common(20)) 
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plt.bar(range(len(D)), list(D.values()), align-'center') 
plt.title('Most Common K-mers for Neanderthal Introgressed 
Regions', fontsize - 20) 

plt.ylabel("Counts", fontsize - 20); plt.xticks(rotation - 90) 
plt.xticks(range(len(D)), list(D.keys()), fontsize - 20) 


plr ان مضه‎ (y d 25 

Cepl sentences = [icem golire "for iren im الام مك‎ tewas] 

D = cier (Coumcer (licen تدمع‎ Svolist ii depl Sentences FOE brem a 
sublist]).most common(20)) 

plt.bar(range(len(D)), list(D.values()), align-'center') 
plt.title('Most Common K-mers for Neanderthal Depleted Regions', 
fontsize - 20) 

plt.ylabel("Counts", fontsize - 20); plt.xticks(rotation - 90) 
plt.xticks(range(len(D)), list(D.keys()), fontsize - 20) 


Most Common K-mers for Neanderthal Introgressed Regions 


Most Common K-mers for Neanderthal Depleted Regions 


PEIEEIBEIPPRPESEREGG IE 


على الرغم من أن A-‏ و T-rich k-mers‏ يبدو أنهما أكثر شيوعا لكل من مناطق النياندرتال المتقدمة 
والمستنفدة» إلا أننا نلاحظ اختلافات صغيرةفي تعداد k-mer‏ بين الحالتين والتي يمكن أن تكون 
مؤشرًا لتكوين k-mer‏ غير المتطابقفي التسلسلات المتقدمة والمستنفدة. بعد ذلك نقوم بترميز 
الكلمات / k-mers‏ كأعداد صحيحة مع فئة CountVectorizer‏ التي تبني ببساطة مفردات النص 
(عدد k-mers‏ الفريدة) وتحسب تكرارات كل كلمة / امص-عفي كل جملة / تسلسل. 


import numpy as np 
from sklearn.model selection import train test split 
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from sklearn.feature extraction.text import CountVectorizer 
merge texts = intr texts | depl texts 

leisels = LISE mpromnesiülientenete sse SON NES 
list(np.zeros(len(depl texts))) 

cv = CountVectorizer )( 

X = yorit Cans oT Mere CSTs) 

2 MOINES EOAEEAY OD 

X erein, X COSC, y Cren, y CEST = train test splice Tabele, 


TeSt Size = 
random state - 42) 


05 219). 


بعد أن قمنا بتقسيم مجموعة البيانات إلى مجموعات فرعية للتدريب والاختبارء نحدد شبكة عصبية 


Stochastic Gradient (425 باستخدام‎ feed-forward neural network امامية التغذية‎ 


(L1 weight regularizer) الوزن المنظم‎ L1 و‎ Descent (SGD) + Momentum 


from keras.models import Sequential 

from keras.regularizers import 12, 11 

from keras.callbacks import ModelCheckpoint 

from keras.optimizers import SGD, Adam, Adadelta 
from keras.layers import Dense, Flatten, Dropout 


= Sequential () 


model 


model.add(Dense(3000, input shape - (X.shape[1], ), activation - 
ذا‎ 5 y 


kernel regularizer = 11(0.00001))) 


model.add(Dense(1, activation = 'sigmoid')) 

SGD(lr = 0.0001, momentum = 0.9, nesterov = False)‏ = موه 
medel ecemprle (LOSS = Volney Crossencr ooy y ODC zer soc,‏ 
N‏ عت علا 2 Ter tes = oinen‏ 


checkpoint = ModelCheckpoint ("weights.best.hdf5", 
monitor-'val binary accuracy', verbose-1, 


save best only > True, mode - 'max') 


mistory = ocel, ie trenin, y CI adr 


epochs = 200, verbose - 1, validation split = 


0,2, barch sizes = 99 


shuffle = True, callbacks = [checkpoint] ) 


Matel Arrurary Normalized confusion matrix 


E 
== 
= 
Be 
کے‎ 
— 
رك‎ 
- 
عت‎ 
Z 
E: 
Predicted label 


True label 


Train 


— validation 


منحنى تدريب دقة MLP‏ (يسار) ومصفوفة الارتباك للتقييم على مجموعة بيانات الاختبار (يمين) 
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وصل النموذج إلى دقة تصل إلى 182.2 على مجموعة بيانات الاختبار التي صنفت تسلسل النياندرتال 
المتقدم مقابل الأصل المستنفد. كانت هذه نتيجة أفضل بشكل واضح مقارنة بالنماذج الخطية linear‏ 
models‏ مثل الانحدار اللوجستي Logistic Regression‏ أو متجهات الآلات الداعمة Support‏ 
Vector Machines (SVM)‏ أو مصئف نايف بايز «Naive Bayes Classifier‏ ومع ذلك. وبشكل 
غير متوقع» وصل مصنف الغابة العشوائية Random Forest‏ إلى دقة أعلى بلغت 84.5 نفس 
مجموعة بيانات الاختبار. عند عرض ميزات نموذج الغابة العشوائية). نلاحظ أن مثل k-mers‏ مثل 
TTTTT; CATTT; CAAAA; AAAAA‏ هو الأكثر تنب نحصل على حدس على الفور على 
أن التنبو بمناطق النياندرتال المتدخلة / المستنفدة له علاقة بمحتوى GC / AT‏ لأن أكثر k-mers‏ 
تنبؤية غنية للغاية ب .AT-rich) AT‏ 

import pickle 


import matplotlib.pyplot as plt 
from sklearn.ensemble import RandomForestClassifier 


classifier - RandomForestClassifier(n estimators - 500) 

class karen teat كد‎ Crem, y Crem) 

y predl و لل‎ SSE eR عاك نت م‎ (DS TeSt) 

pickle.dump(classifier, open('RF model Neand Intr vs Depl.sav', 


'wb')) 

importances = classifier.feature importances | 

SEE enpssiditenree-teaturesimpontaneesm ton ELES AM 
Cl ASIA ELE eotinetors |; exis = 0) 

indices > np.argsort(importances)[::-1] 


plt.title("Feature importances", fontsize - 20) 

plt.bar(range(X train.shape[1])[0:50], importances[indices][0:50], 
yerr = std[indices][0:50], align = "center") 

plt.xticks(rotation = 90); plt.ylabel('Score', fontsize = 20) 

plt.xticks (range(X train.shape[1]) [0:50], 

np.array (names) [indices] [0:50]) 


Normalized confusion matrix 


"amm 


مصفوفة الارتباك لمصنف الغابة العشوائية (يسار) وخصائص الاستيراد التى يهيمن عليها AT-‏ 
(om) rich k-mers‏ 


Predicted label 
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من مصفوفة الارتباك لمصنف الغابة العشوائية (AEI)‏ يتضح أن النموذج كان يتمتع بدقة عالية جد 
عند التنبؤ بأجزاء من أصل إنسان نياندرتال المستنفد. ومع ذلك كان أداؤه Gd‏ للغاية (أسوأ من 
الشبكة العصبية)في تصنيف المناطق المتقدمة introgressed regions‏ 


توقع الجينات الموروثة من إنسان نياندرتال 

الآن دعونا نعود إلى مسألة التنبؤ من تسلسل DNA‏ معين سواء كان مورونًا من إنسان نياندرتال أم لا. 
سأقوم هنا بتوليد مثل هذه التنبؤات لجينات ترميز البروتين البشري. لنقم بتنزيل ملف شرح الجين 
RefSeq‏ ل hgl9‏ هناء قم بتنظيفه واستخدام إحداثيات الجينات لاستخراج تسلسلها من ملفات 
الجينوم المرجعي fasta‏ بالمثل لمعرفة كيفية قيامنا بذلك للمناطق المتقدمة والمستنفدة» انظر التفاصيل 
في نوتبوك Jupyter‏ على github‏ مرة أخرى نقوم ببناء نصوص الجينات عبر تسلسل محدد بفراغ ل 


.k- mers 
from Bio import SeqIO 
gene SECS = [l7 gere ide = [Jy a= 0 
tor Gene ia SEGO perse ) 019 gene Clea tet, EASE): 
cut = 8800 
if len(str(gene.seq)) < cut: 
continue 
S gene - str(gene.seq) [0:cut] 
if s gene.count('A')»0 and s gene.count('C')»0 and 
S gene.count('G')»0 ١ 
andEssgeneseount emi 
gene seqs.append(s gene) 
gene ids.append(str(gene.id)) 
ك‎ e gt owe Jb 
if a$10000 == 
print('Finished ' -* str(a) * ' genes") 
def getKmers (sequence, size): 
return [sequence[x:x-*size].upper() for x in range (len (sequence) 
= gize xe d] 
kmer = 5 
gene texte = I V Jon (get NEES Ey, Mer) or sb im gene SESI 


بعد ذلك. سنستخدم مصنف Random Forest‏ المدربين لتوليد تنبؤات لتسلسل الجينات التي تم 
تحويلها سابقًا إلى نصوص. وبالتالي» يتم تحويل نصوص الجينات إلى أعداد صحيحة باستخدام 


. CountVectorizer 


import pickle 
import pandas as pd 
from sklearn.feature extraction.text import CountVectorizer 


classifier = pickle.load(open('RF model Neand Intr vs Depl.sav', 
EOD) 

e = COUNEVECEOETZEE O S6 Gene = Eyo Elt EEAMSEOEMSeENe TSTS) 
gene predictions = classifier.predict(X gene.toarray()) 
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= classifier.predict proba(X gene.toarray()) 


for i in gene predictions prob] 
iios 3L in Gene عت قوت تدم‎ 25 Pro] 


'Gene Symbol': 


as fin: 


[] 


[i[0] 
[i[1] 


gene predictions prob 
gene predictions prob 0 


; gene symbol 
with open('gene ids.txt','r') 


aud debite 


= line.split('Nt') 
gene ids.append(line[0]) 
gene symbol.append(line[1].rstrip()) 


Eredi ell: Gene DEedTEEEON SF, 


: gene predictions prob 0, 


: gene predictions prob 1]) 
ascending 


Gene Gene Symbol Predict Prob 0 Prob 1 
hr19:42901280-42912604 0C 101930071 


0.124 
0.124 
0.124 
0.122 
0.120 
0.120 
0.116 
0.116 
0.116 
0.116 
ons 
ons 
0.12 
0.112 
0.112 
0.512 
0.110 
0.108 
0.106. 
0.102 
0096 
0094 
0.094 
0.092 
0.092 
0.090 
0.090 
0.090 
0.090 
0084 


0.876 
0.876 
0.876 
0.878 
0.880 
0.880 
0.884 
0.884 
0.884 
0.884. 
0.886. 
0.886 
0.888 
0.888 
0.868 
0.888 
0.890 
0.892 
0.894 
0.898 
0.904 
0.906 
0.906 
0.908 
0.908 
0.910 
0.910 
0.910 
0.910 
0.916 


00 
00 
مه 
o0‏ 
مه 
00 
00 
00 
00 
00 
00 
مه 
00 
مه 
00 
00 
00 
00 
00 
00 
00 
00 
مه 
00 
مه 
00 
00 
00 
00 
00 


ATAD3B 
RABGEF1 
KCNJI4 


£hr1:1413495-1431584 
€h(7:66147078-66276448. 
C19:48958964-48969367 
€hr3:47537130-47555198 
€hr12:6420099-6437672 
hr1:155204239-155214653 
chr1:235330210-235491532 
€hr1:235330210-235490802 
chr1:1288069-1298921 
hr11:64948686-64979477 
€hr12:123259056- 123311927 
€7:5965777-6010314 
chr8:145597704-145618453. 
chr14:105956192. 105965585 
chr7:5965777-6010314 
hr17:73720776-73753899 
chr8:145106167-145115606 
chr20:32319566-32380075 
chr19:496490-505343 

chr1 236558716-236648006. 
€hr9:131857073-131873077 
€^Y16:66638228-66647795 


17725 chr mcf hap5:3144866-3154459 
17803 chr& qbi hap6:3058814-3068398 
17608 chr& dbb nap3:3050751.-3060344 


chr14:105956520-105965585. 


17513  chr6 cox hap2-3274737-3284332 


d6:31765169-31774761 
€hr8.144873090- 144897549. 


16482 
19906 


veroo Q" 
verol 1 


= pd.DataFrame(í('Gene': gene ids, 


= Gene Pred OE core valves E ل اكت‎ 


Gene Symbol Predict Prob 0 Prob 1 


0.968 
0.954 
0.934 
0.906 
0.906 
0.900 
0.864 
0.864 
0.864 
0.846 
0.842 
0832 
0,832 
0.826 
0.826 
0.824 
0.822 
0,822 
0,820 
0818 
osn 
0814 
0.808 
0808 
0.808 
0.808 
0.806 
0,800 
0.786 
0.786 


0.032 
0.046 
0.066 
0.094 
0.094 
0.100 
0.136 
0.136 
0.136 
0.154 
0.158 
0.168 
0.168 
0.174 
0.174 
0.176 
0.178 
0.178 
0.180 
0.182 
0.186 
0.186 
0.192 
0.192 
0.192 
0.192 
0.194 
0.200 
0.214 
0.214 


10 
10 
10 
10 
10 
10 
10 
10 
10 
10 
10 
10 
10 
10 
10 
10 
10 
10 
10 
10 
10 
10 
10 
10 
10 
10 
10 
10 
10 
10 


RABSA 
LINCO1622 
ORS1E1 


CHMP3 


ANK3 


LINCO2032 
MGAT4A 
MGAT4A. 


gene predictions prob 1 


gene AAS = [I] 


for line 
line 


gene pred df 
gene symbol, 


gene pred df 
False) 


Gene 

12554 €hr3:19988572-20026667 
16186 €^r6:961241-1101567 
2966 chr11:4665156-4676716 
15270 chr5:57878871.58155222 
10923  chr2:179694484-179914786 
6014 chr14:101355986-101465450 
16252 chr6:8435856-8785678 
2440 ch«10:87359312-88126250 
16251 chr6:8435856-8712526 
382 hr1:33231235-33240571 
12301 chr22:32870707-32894818 
19128 hr8:17154306-17271040 
4853  dw12:96043031-96067770 
12597 €hr3:29322803-30032809 
12598 €hr3:29322803-30051886 
16047  chr5:169064251.169510386 
13843  chr3:191857182-192445388 
13842  chr3:191857182-192126838 
16878 chr6:80340822-80413387 
3739 hr11:95523625-95565857 
10325 €hr2:86730553-86790620 
10326 €hr2:86730553-86948245 
2238  chr10:61786056-61900774 
2239  chr!0:61786056-62149742 
2240 chr10:61786056-62332714 
2241 — ch10:61786056-62493284 
3761 chr11:102391239-102401484 
13506 — chr3:147795946-147805816 
10404 hr2:99235569-99279936 
10405 chr2:99235569-99347589. 


يُتوقع أن يكون للجينات احتمالية عالية (يسار) ومنخفضة (يمين) لتورثها من إنسان نياندرتال 


بهذه الطريقة ننتج لكل جين احتمال )1 (Prob.‏ أن يتم توريثه من إنسان نياندرتال وأن يكون Ce‏ 
بشريًا أصليًا (0 (Prob‏ یمکننا بسهولة عرض الجینات ذات أعلى 1 Prob‏ (أدنى 0 (Prob.‏ وأعلى 
(Prob 1/25) Prob 0‏ يرجى الاطلاع على قوائم الجينات أعلاه. بشكل «P gods‏ من بين 22000 
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الجينية | لمشفرة للبروتين فقطء كان من المتوقع أن يحتوي 477 جينة فقط على | لحمض النووي لإنسان 
نياندرتال. هذه ملاحظة شيقة للغاية» وسوف نعيد النظر فيها لاحقا. 


E 
7% 


تصور K-mer /Word Embeddings‏ 
يمكن تصور مفردات النصوص الجينومية التي تم إنتاجها من خلال ربط k-mers‏ عبر نموذج Word‏ 
Embedding Word2Vec‏ الذي يقدم تخمينات ذكية حول التشابه بين الكلمات dk-mers)‏ 
حالتنا). بمجرد ملاءمته لبیاناتناء يمثل Word2Vec‏ كل k-mer‏ كمتجه كامن 100 بعد. يمكن النظر 
إلى المتجهات على أنها تمثيل رقمي آخر لبياناتنا التي يمكن إدخالهاني أي xum‏ لتقليل الأبعاد 
dimension reduction‏ لمزيد من الاستكشاف. سنقوم هنا بتضمين وتصور باستخدام UMAP‏ 
tSINE;‏ القيم k‏ المستخدمةفي تحليل مشاعر مقدمة الإنسان البدائي مقابل الاستنفاد. يمكننا اكتشاف 
مجموعتين واضحتين من مجموعات .k-mer‏ تظهر نظرة فاحصة أن أحدهما يبدو أنه غني بال k-‏ 
mers‏ الغني ب AT‏ والآخر (الأصغر) يتكونني الغالب من k-mers‏ الغنية ب .GC‏ 

from umap import UMAP 


import matplotlib.pyplot as plt 
from gensim.models import Word2Vec 


kmer = 5 

SeGüeEness = inte seces r Cepl secer sentences = [I] 

for i in range (len (sequences) ) : 
sentences.append(getKmers(sequences[i], kmer)) 


model = Word2Vec(sentences, min count > 2, workers - 4) 
X = model[model.wv.vocab] 


xEneducede MPOR(mWcomponenism = D) ENE CEEE EONO) 

umap model = UMAP(n neighbors = 30, min dist = 0.2, n components = 
2) 

Umapi umap model.fit transform(X reduced) 

jolies Seules (umeros Olr mmal, dj» هك‎ = t0- enag EAL) 
plt.title('UMAP: All K-mers', fontsize = 20) 

plt.xlabel("UMAP1", fontsize = 20); plt.ylabel("UMAP2", fontsize = 


29) 
words = list (model.wv.vocab) 
for i, word in enumerate (words): 
if word == 'AAAAA': 
pilt, eese EOE, Ol; اس خسن‎ 1, U, UO, 265255226 = 07د‎ CG = 
'green') 
elif word == 'CAAAA': 
plt.text(umap[i, 0], umap[i, 1], word, fontsize = 30, c = 
'green') 
elif word == 'CATTT': 
plt.text(umap[i, 0], umap[i, 1], word, fontsize = 30, c = 
'green') 
elif word -- 'TTTTT': 
plt.text(umap[i, 0], umap[i, 1], word, fontsize = 30, c = 


'green') 
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else: 
plt.text(umap[i, 0], umap[i, 1], word, fontsize = 10, c - 
Fed.) 


UMAP: All K-mers 


UMAP2 


e 


EI 


EI 


tSNE2 


لقد سلطت الضوء على وجه التحديد من خلال اللون الأخضر على أكثر k-mers‏ تنبؤية 5 G3‏ لمصنف 
Random Forest‏ الذي يميز بين تسلسلات Neanderthal‏ المقدمة مقابل المستنفدة. كما هو 
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متوقع» يقعون Uem‏ مجموعة AT-rich‏ الأكبر. يعد تصور تضمين Word‏ هذا o‏ آخر على 
وجود بعض الهياكل الموجودةفي جمل comer‏ والتي يمكنها التنبؤ بأصل الإنسان البدائي ولها علاقة 
بالتوازن بين أجزاء الحمض النووي الغنية بال AT GC‏ 


التطور يزيل الحمض النووي لإنسان نياندرتال من الجينات 

بتلخيص كل شيء تمت مناقشتهفي الأقسام السابقة» يمكن للمرء أن يستنتج أن وجود أصل إنسان 
نياندرتالفي حمضنا النووي يرتبط بشكل مثير للريبة بمحتوى GC | AT‏ عبر الجينوم. من المعروف 
أن جيناتنا غنية بال GC‏ ومحتوى GC‏ حوالي 47/ مقارنة ب 41./ على مستوى الجينوم» وهو اختلاف 
dues‏ محتوى GC‏ 


"A PUPA C9» Adenine 
Thymine 4 IH nm 5-5 "deoxyribose. 


deoxyribose 0 


Hy O, N: 
F ( 5 Guanine AT rich GC rich 
Cytosi N 
BE deoxy ~= high evolutionary rate -low 'utionary rate 
ne Dose = low transcripsiorvnepair = high transcription 
/ - increased methylation/mutalion - decreased methylationimutation 
deoxyribose Qn Hy - increased intron insertion - decreased intron insertion 
: condensabon - increased اتام اوربك‎ 
= pseudogenization = increased amplification. 


عادة ما تكون الجينات البشرية غنية بال GC‏ وهو ما يدل على عدم وجود سلالة نياندرتال 


لذلك يمكننا أن Jis‏ عن مدى تداخل مناطق التقديم introgression‏ واستنفاد depletion‏ الإنسان 
البدائي مع الجينات؟ يمكننا حساب عدد التقاطعات بين الجينات وإحداثيات التداخل 
introgression coordinates‏ مع -bedtools intersect‏ ومع 3( نظرًا oM‏ إحداثيات المناطق 
المستنفدة للإنسان البدائي تم اختيارها مسبقا عشوائيًا (طلبنا فقط عدم تداخلها مع إحداثيات التقديم 
(introgression coordinates‏ يجب أن نكرر إجراء الاختيار عدة مرات لتقدير أهمية التقاطعات. 


import subprocess 

import numpy as np 

import seaborn as sns 

import matplotlib.pyplot as plt 


pern a = [DT 
for k in range(20): 
elm ligi = [HB stere list = Il; eee liste = [M 
NEE lengtns = LISE (MCE (xexoxaeke,adboxe[ 2; 2j = 
MEE Cordes Llocs; 1) 
e& cg 
for i in range(intr coords.shape[0]): 
gine gie = 
imer 264 عنس كك | كك ست‎ «etexexaclst EO] terni [intei حك 2ت مت‎ ac exe: Fato O] 
overlap - True 
while overlap -- True: 
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EEE EAE E = 


oo EEC E ECE (Cb, EME (COE _ دام ]| 2228م‎ SIZES |] 011 >> 552 Coors ilochi, 
(QE T امت‎ LN 
Ee كت‎ = Ked SEA r imer enoe [fat] 
EOE J im zenge leni غك‎ shepel®]) s 
lol = hnr QE loej il? 192 = Gar cf tiloe 2] 
ir (eg start > ol ancl reg stari < O2) Or (reg emel 
> b1 and reg end < b2) ١ 
or (ol > reg tart amel Ol < zeg eme) or (2 > 
Teg SIEAEIE ANd 52 < Tec enc) s 


overlap = True 
break 

else: 
overlap = False 


EME MMSE ASPENS EME CODECS Moe UN) 
start list.append(reg start); end list.append(reg end) 
a= mu 
if 3520000 == 
print('Finished ' -* str(a) * ' Neanderthal haplotypes') 
depl coords = PA Dalal فييك‎ (O Ots Car ركاف‎ E SEE listy 
"2$ enG listi) 
depl coords to csv (eeg temo ctt; Madex = alse, necer = 
False, sep - "Nt") 


yata Open RIENCE SEC ES EXE, UyyU) aS Jo 
subprocess.run(['bedtools', 'intersect', '-a', 
Cepl remo waet, EO, 
"gene coords.txt'], stdout = fp) 
aieyEne = Pd. Head cev m intersects n edi, header = Nore, sepa 
ENE 
print(k, akey n.shape[0]) 


joue abge, (( VR ا ا‎ UE IRURE TR ا‎ II SUSHI EE E Ve ie ATTI Ge VIN RS INSISTE PHUA V I Tagus E) 


perm n.append(akey n.shape[0]) 


plt.axvline(x = 140821, linewidth = 4, color = 'r') 
sns.distplot (perm n) 

plt.title("Distribution of Gene-Depletion Intersects: Vernot and 
Akey, Science 2016", 

fontsize - 30) 

plt.xlabel("Number of Intersects Between Gene and Neanderthal 
Depleted Regions", 

fontsize - 30) 

plt.ylabel("Frequency", fontsize - 30) 
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Distribution of Gene-Depletion Intersects: Vernot and Akey, Science 2016 


# intersects 
Neanderthal 
introgression 
with genes 


Frequency 


Number of Intersects Between Gene and Neanderthal Depleted Regions 


يمكننا أن نرى أن ode‏ التقاطعات بين الجينات ومقاطع تقديم الإنسان البدائي Neanderthal‏ 
pl (140821 introgression segments‏ بكثير من عدد التقاطعات بين الجينات ومناطق 
النياندرتال المستنفدة Neanderthal depleted regions‏ .ي الواقع»› لم يكن أي من ال 17 منطقة 
المرسومة Gil eie‏ لاستنفاد إنسان نياندرتال بها عدد من التداخلات مع الجينات أقل من 140821 أو 
يساوي 140821( لذلك يمكننا حساب القيمة p‏ كقيمة 17 / 1> م. ما نراه هو أن الإنسان البدائي تقع 
المناطق المُدخلةني الغالب خارج الجينات» مما يعني أن التطور لم يعطي الأولوية لسلالة الإنسان البدائي 
وحاول إبعاده عن العناصر الأكثر وظيفيةفي جينومناء وهي الجينات المشفرة للبروتين. لذلك. ولأسباب 
viaa‏ فاق الجن مع aon]‏ قادال لم ينين dloca LAC UU‏ ارو حم MS.‏ 
يتحدثون كثيرافي الصحف والمجلات عن حقيقة رائعة جدا تتعلق بالتزاوج بين البشر المعاصرين 
والنياندرتال» لكنهم لم يذكروا بدا أن هذا لم يكن مفيدًا للإنسان الحديث» أليس كذلك؟ 


Breeding with Neanderthals was not beneficial for modern humans 


التعلم العميق واستخداماته في المعلوماتية الحيوية 206 


الاستنتاج 

في هذا المنشور. تعلمنا عن الإمكانات الهائلة للتعلم الآلي / العميق ومعالجة اللغة الطبيعية (NLP)‏ 
لبيولوجيا التطور ومجالات أبحاث الحمض النووي القديمةء والتي لا تزال غير مستخدمة بالكامل. توفر 
بيانات الجينوم أحد المصادر الرئيسية للمعلوماتفي علم الأحياء التطوري وتتألف من ملايين ومليارات 
من قطع الحمض النووي القصيرة التي يمكن وينبغي تحليلها باستخدام التعلم العميق. أوضحنا هنا 
كيفية إعداد بيانات الجينوم ل NLP‏ وتحليلها باستخدام حقيبة الكلمات Bag Of Words‏ وتضمين 
الكلمة Word Embedding‏ . قمنا بتدريب نموذج قادر على التنبؤ بما إذاكان التسلسل الجيني موروثا 
من إنسان نياندرتال. باستخدام النموذج قمنا ببناء قوائم بالجينات التي من المحتمل أن تكون موروثة 
من إنسان نياندرتال واكتشفنا عدم وجود سلالة قديمةفي جيناتنا مما يشير إلى أن التزاوج مع إنسان 
نیاندرتال کان تطوريّاء ولم يكن مفيدا للإنسان الحديث. 


المصدر: 


https://towardsdatascience.com/deep -learning-on-neanderthal-genes- 
ad1478cf37e7 
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LSTM to Detect لإنسان نياندرتال‎ DNA لاكتشاف‎ LSTM (14 
Neanderthal DNA 


(الشبكات العصبية طويلة الذاكرة لعلم الجينوم القديم) 


هذا هو المنشور الثامن من عمودي التعلم العميق لعلوم الحياة حيث أوضح كيفية استخدام التعلم 
العميق للحمض النووي القديم» وبيولوجيا الخلية المفردة. وتكامل بيانات OMIC‏ والتشخيص 
السريري والتصوير المجهري. فيما بعد التعلم العميق حول جينات الإنسان البدائي Neanderthal‏ 
Genes‏ أكدت على الإمكانات الهائلة للتعلم العميق و المعالجة اللغوية الطبيعية لعلم الجينوم القديم 
وأوضحت كيفية البدء عمليّافي استخدامه لاستنتاج مناطق من إدخال الإنسان البدائيفي الجينوم البشري 
الحديث. سنقوم الآن بتطبيق القوة الكاملة للشبكات العصبية المتكررة Recurrent Neural‏ 
Networks (RNN)‏ ذات الذاكرة الطويلة من أجل تنبؤ أفضل لشرائح من أصل إنسان نياندرتالفي 
الجينوم البشري الحديث. 


HMM‏ مقابل LSTM‏ لعلم الجينوم القديم 

الحمض النووي DNA‏ عبارة عن تسلسل ذي ذاكرة طويلة تتجلى من خلال الارتباطات طويلة المدى 
على طول التسلسل الذي يسمى اختلال التوازن الارتباطي .Linkage Disequilibrium‏ ومع ذلك 
يتم إجراء الكثير من التحليلاتفي علم الجينوم القديم باستخدام نموذج ماركوف الخفي Hidden‏ 
Markov Model (HMM)‏ وهو نموذج بلا ذاكرة لا يمكن أن يأخذ سوى بضع خطوات سابقةفي 
الاعتبار. لقد ثبت أن الشبكات العصبية الاصطناعية للذاكرة طويلة قصيرة المدى Long-Short‏ 
Term Memory (LSTM)‏ تتفوق على HMM‏ عدد من التطبيقات مثل التعرف على الكلام 
speech recognition‏ وتوليد النص text generation‏ وما إلى ذلك من خلال الاستفادة من 
قدرتها الفريدة على حفظ العديد من الخطوات السابقةفي تسلسل يوفر ذلك ما يكفي البيانات المتاحة. 


1.00 ¬ 
0.75 - 7 MAX ET 
سا سے‎ 
E ON e eai A ur 0 

ids deal HMM = = = 
M ud ISTM 7 

0.00 3 1 1 T T T T T T T HE RUE ES n 
1 2 4 8 16 32 64 


Number of training samples per class 
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يمثل علم الجينوم Genomics‏ وعلم الجينوم القديم Ancient Genomics‏ مصدرًا حقيقيًا للبيانات 
الضخمة Big Data‏ بفضل تسلسل الجيل التالي Next Generation Sequencing (NGS)‏ 
الذي يوفر ملايين ومليارات من التسلسلات التي يمكن استخدامها كأمثلة تدريبية / ملاحظات إحصائية 
لتدريب 1.5:11/15. لذلك فإن بيانات الجينوم القديم هي هدية للتعلم العميق! 


على الرغم من ازدهار موارد التدريبفي علم الجينوم / علم الجينوم القديم. لا يزال يتم إجراء غالبية 
التحليلات على بيانات الجينوم المحاكية «simulated genomic data‏ وربما تكون نظرية الاندماج 
coalescent theory‏ هي الإطار الأكثر شيوعًا لمحاكاة الديموغرافيا والاختيارني علم الوراثة السكانية 


.Population Genetics 


LSTM‏ + تضمين الكلمة على الحمض النووي للإنسان البدائي 

سأقوم هنا بتوسيع الأفكار حول استخدام المعالجة اللغوية الطبيعية NLP‏ للجينوميات القديمة التي تم 
التعبير عنهاني رسالتي السابقة التعلم العميق على جينات الإنسان البدائي وإثبات تفوق dLSTMs‏ 
تحليل بيانات التسلسل. كما لاحظت. فإن التعلم العميق من المنشور السابق لم يكن Deep Gee"‏ " 
بشکل خاص بل "واسع Wide‏ ". بالإضافة إلى ذلك يبدو أن Random Forest‏ تظهر أداءً أفضل في 
نموذج حقيبة الكلمات e SL. .2828 of Words‏ هنا بتنفيذ نموذج LSTM‏ يصل إلى دقة تصل إلى 
9ف الكشف عن امتدادات الحمض النووي الموروثة من إنسان نياندرتال. لقد أوضحت كيفية 
استخراج تسلسلات النياندرتال المتقدمة والمستنفدةفي المنشور السابق. لذلك سأبدأ هنا بقراءة 
التسلسلات» وتقطيعها إلى 200 سلسلة فرعية طويلة من النيوكليوتيدات» كل منها يمثل جملة حتى 
نتمكن من تقسيم كل جملة إلى k-mers‏ / كلمات الجمل. 


from Bio import SeqgIO 
from Bio.Seq import Seq 


AEE segs = [2 depl segs = [lz = 0 

MEE E = MONG imer CIEE ie" Cepl £ = ol cdepl elean, EE! 
FOE imatr, Cepl ia 2125 0) ك5 دم 10م‎ limte E, 2 )) y 
SegrO.parse(depl f, 'fasta"')): 


step = 200; jump ig m üp 19 SEES n Jumps = © 

EOE J iM sengena Juws) ES 
s imen = ere (ashes Seg) lab]; de cebl = srr (carl Se) Iero] 
intr seqs.append(s intr); depl seqs.append(s depl) 
a 3 f jump; b ^ a 1 step 


e = e + 1 
if e$20000 == 
print('Finished ' 1 str(e) * ' entries!) 


def getKmers (sequence, size): 
return [sequence[x:x-*size].upper() for x in range (len (sequence) 
= size r 1)] 
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kmer = 0 
HEE Certe = [[" 7 Jonn OSES SE, UOJ) EOE L ia tate SCSI 
Cepl tekts = [Y ODOC SE, EJ) EO i كه‎ Ceo Secs] 


ننتهي مع 737340 جملة تنتمي إلى فئتين: إنسان نياندرتال متقدم introgressed‏ ومنضب 
4ع]ع1مع1. الخطوة التالية هي ترميز الجمل مرة واحدة عن طريق تحويل k-mers‏ / الكلمات إلى 
أعداد صحيحة باستخدام کلاس .Python Tokenizer‏ لاحظ أن الحشو padding‏ ليس ضروريًا 


حقاني حالتنا OY‏ جميع الجمل لها نفس الطولء بطول 191 ألف مترء لكني أدرجها هنا للتعميم. 


import numpy as np 

from keras.preprocessing.text import Tokenizer 

from sklearn.model selection import train test split 
from keras.preprocessing.sequence import pad sequences 


a EOE Tets = AEE EES r COOL Ee S 
aloes = list (no Gnesen (inei Texts] 
list(np.zeros(len(depl texts))) 


tokenizer = Tokenizer() 

tokenizer.fit on texts (merge texts) 

encoded docs - tokenizer.texts to sequences (merge texts) 

max length = mex (enla so ine) for s Xn merge texts]) 

X = pad sequences (encoded docs, maxlen = max length, padding = 
OSE) 


X EAA لد‎ ESE Ww; eremm, y Cest = EIA cest SPIE labels, 


test size-0.20,random state-42) 
OCA aize = len (TO emire Wore eso 


كان حجم المفردات 3964114( حالتنا وهو أقل من 4 ^ 10 = 1 048 576 مما يعني أنه لا توجد 
كل المفردات العشرة الممكنة المكونة من 4 أحرف داخل التسلسلات. ez‏ نحدد نموذجًا تسلسليًا 
بدءًا من طبقة التضمين Embedding Layer‏ من Keras‏ الذي يتعلم تضمين الكلمة Word‏ 
Embeddings‏ أثناء تصنيف التسلسلات » متبوعًا ب ثنائي الاتجاه LSTM‏ وطبقات كثيفة Dense‏ 


-layers 


from keras.models import Sequential 

from keras.callbacks import ModelCheckpoint 

from keras.optimizers import SGD, Adam, Adadelta, RMSprop 

from keras.layers import Embedding, LSTM, Dense, Bidirectional 


model = Sequential )( 

model.add(Embedding(vocab size, 10)) 
model.add(Bidirectional(LSTM(10))) 

model.add(Dense(10, activation — 'relu')) 

model.add(Dense(1, activation = 'sigmoid')) 

epochs = 5 

model.compile(loss-'binary crossentropy',optimizer-'rmsprop',metric 


s-['accuracy']) 
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checkpoint-ModelCheckpoint ("LSTM.weights.best.hdf5", 
nomo ual ecel, verbose = 1, 

save best only = True, mode = 'max') 
model.summary() 


Layer (type) Output Shape Param # 
embedding 2 (Embedding) (None, None, 10) 9641140 - 
bidirectional 2 (Bidirection (None, 20) 1680 
dense 3 (Dense) (None, 10) 210 
dense 4 (Dense) (None, 1) 11 


Total params: 9,643,041 
Trainable params: 9,643,041 
Non-trainable params: 0 


None 


ميزة استخدام تضمين الكلمة Word Embeddings‏ الطبقة الأولى هي تقليل الأبعاد من 964114 
إلى 10 أبعاد فقط. هذا s‏ | من الضبط الزائد overfitting‏ ويحسن قابلية تعميم generalizability‏ 
النموذج عن طريق إجبار كلمات مماثلة على مشاركة المعلمات / الأوزان الملائمة. الآن يمكننا البدءفي 

import matplotlib.pyplot as plt 


ME SEO = MOEN, EE OS trein, y erain, 
OCA = epohe, verbose = l, ALICE CLO solie 


= 0.2, 
bacen Size = 32; SUE = aene 
callbacks = [checkpoint] ) 
plt.figure(figsize-(20,15)) 
joie عات لات‎ (OL SIEOSEY RSE E Losst i)z 
pilt pilor CMI SESE RIS EOE Vl val OSS) 
plt.title('Model LOSS, fontsize - 20) 
plt.ylabel('Loss', fontsize - 20); plt.xlabel('Epoch', fontsize - 
20) 
plt.legend(['Train', 'Validation'], fontsize - 20) 
plt.figure(figsize-(20,15)) 
jolies عات لات‎ (aso syEOew ترش عات لك‎ eee [( 2 
plt.plot(history.history['val acc']) 
plt.title('Model Accuracy', fontsize - 20) 
plt.ylabel('Accuracy', fontsize = 20); plt.xlabel('Epoch', fontsize 
= 20) 
plt.legend(['Train', 'Validation'], fontsize - 20) 
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Train on 471897 samples, validate on 117975 samples 

Epoch 1/5 

471897/471897 [سسسسسسه سسسسسسه سسسس مه سمددععسدممد]‎ - 3035s 6ms/step - loss: 0.2911 - acc: 0.8573 - val loss: 0.0965 - v 
al acc: 0.9636 


Epoch 00001: val acc improved from -inf to 0.96362, saving model to weights.best.hdf5 
Epoch 2/5 
471897/471897 [=== 


] - 5225s llms/step - loss: 0.0371 - acc: 0.9869 - val loss: 0.0850 - 
val acc: 0.9716 


Epoch 00002: val acc improved from 0.96362 to 0.97165, saving model to weights.best.hdf5 

Epoch 3/5 

471897/471897 [======z222222222=2============) - 3116s 7ms/step - loss: 0.0133 - acc: 0.9957 - val loss: 0.0394 - v 
al acc: 0.9888 


Epoch 00003: val acc improved from 0.97165 to 0.98881, saving model to weights.best.hdf5 

Epoch 4/5 

471897/471897 [2-----------------------------] - 3172s 7ms/step - loss: 0.0055 - acc: 0.9984 - val loss: 0.0388 - v 
al acc: 0.9915 


Epoch 00004: val acc improved from 0.98881 to 0.99149, saving model to weights.best.hdf5 

Epoch 5/5 

471897/471897 ] سم عمد دده‎ anzsssssazzszz] - 3160s 7ms/step - loss: 0.0026 - acc: 0.9994 - val loss: 0.0393 - v 
al acc: 0.9941 


Epoch 00005: val acc improved from 0.99149 to 0.99411, saving model to weights.best.hdf5 
ما وصل إلى دقة مذهلة بلغت‎ ole pw فقط لآن النموذج‎ epochs كان كافيًا إجراء تدريب لمدة 5 فترات‎ 
.validation data مجموعة بيانات التحقق من الصحة‎ (3/99 


Model Loss. 


—— Train 
— validation 


m 


Epoch 
Model Accuracy. 
| — Train 

— Validation 


Accuracy 


Epoch 
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عند تقييم أداء النموذج على مجموعة بيانات الاختبار test data‏ حصلنا مرة أخرى على 99/ من دقة 
تصنيف تسلسل الإنسان البدائي المتقدم Neanderthal introgressed‏ مقابل تسلسل المستنفد 
depleted sequences‏ 


import itertools 
import matplotlib.pyplot as plt 
from sklearn.metrics import confusion matrix 


plt.figure(figsize > (15,10)) 


predicted labels - model.predict(X test) 

em > Contusion merrily test, IAC serexviavel (ab OD Eos sb 368 
predicted labels]) 

print('Confusion matrix: 'Mn',cm) 


cm = cm.astype('float') / cm.sum(axis = 1)[:, np.newaxis] 
plt.imshow(cm, cmap < plt.cm.Blues) 
plt.title('Normalized confusion matrix', fontsize - 20) 
للم‎ 660102522 (0) 
plt.xlabel('True label',fontsize-20); plt.ylabel('Predicted 
label',fontsize-20) 
for i, j in itertools.product (range (cm.shape[0]), 
range(cm.shape[l1])): 

joli EEE Il s» EOE (ONE, Il, Va24 (| 


horizontalalignment = 'center', verticalalignment = 
eem y 

fontsize - 20, color whitei if cm[i, j] > 0.5 else 
Solecki 
Scores = model evaluerte test, y test, veroose = 0) 


orome ) 2 :22ت‎ AEC o (Scores L L00) 


Normalized confusion matrix 


Predicted label 


-0.50 025 


075 


050 
True label 
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الآن لدينا نموذج LSTM‏ مدرب سنستخدمه GY‏ للتنبؤ بتسلسل الجينات الموروثة من إنسان 
نياندرتال. حان الوقت الآن لتفسير النموذج الذي يتضمن تصور المفردات والكشف عن معظم k-‏ 
5 التنبؤية التي تقود التصنيف. 
NETTE‏ 
في الوقت الحالي» يتم تمثیل کل k-mer‏ / كلمة »42 10 dimensional vector)‏ -10( أبعاد نظرًا 
UN‏ طبقنا طبقة تضمين 3Embedding Layer‏ الواجهة الأمامية للشبكة. لتصور ما تعلمته طبقة 
التضمين» نحتاج أولاً إلى حفظ أوزان الطبقة وكلمات المفردات. 

import io 


= model.layers[0] 


weights = € det weights()[0] 

words = [i.upper() for i in list(tokenizer.index word.values())] 
ONE v = LOOO ECS o tev" y uU. CACO UE E>) 

Gwe nn = 25 OPen Mela ESM, VwV, Eneo mowicie) 


for num, word in enumerate (words) : 

vec = weights[num 1 1] skip O, it's padding. 

out m.write(word E "Nn") 

SEE !)فعا عن ين‎ WE" cessa (etes (ox) Eo x im vcl) € "Way 
051807 552 0 
out m.close() 


من أجل pal‏ يمكننا استخدام Tensorflow Embedding Projector‏ من هنا 
[http://projector.tensorflow.org‏ والتحقق من تجميع مجموعات k-mers‏ باستخدام تقنية 
UMAP‏ لتقليل الأبعاد غير الخطية. 
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بدت العلاقات بين k-mers‏ التي تعلمتها طبقة التضمين مختلفة GLS‏ عن تضمينات Word2Vec‏ 
المقدمةفي المنشور السابق ولم تكشف عن أي تجمعات واضحة ل k-mers‏ الغنية 5 AT‏ و GC‏ 
الغنية. 


تحديد K -mers‏ التنبؤية 
تتمثل إحدى طرق بناء عناصر استيراد الميزات للشبكة العصبيةفي فرض بعض التقليب perturbation‏ 
على بيانات الإدخال ومراقبة التباينفي دقة التنبؤ عند إخراج الشبكة. هناء نود العثور على k-mers‏ 
الأكثر alj‏ ومع ذلك.ني حالتناء كان لمصفوفة الإدخال X‏ أبعاد )191 ,737340): حيث يمثل البعد 
الأول عدد أمثلة التدريب للشبكة العصبيةء والبعد الثاني يتوافق مع عدد الكلماتفي كل جملة / تسلسل. 
هذا يعني أن index Gg‏ (أو موضعًا position‏ الجملة) لكل كلمة / k-mer‏ كان ميزة لمصفوفة 
الإدخال ×. لذلك إذا قمنا بتبديل كل ميزة feature‏ من 191 di‏ واحدة تلو الأخرى عبر 737340 
عينةء وتحقق من الانخفاضفي الدقة مقارنة بمصفوفة الإدخال غير المقلبة un-perturbed input‏ 
«matrix‏ يمكننا ترتيب الميزات حسب أهميتها للتنبؤ النهائي.ني حالتناء فإن ميزات الترتيب تعادل 
تحديد e^‏ مواضع الكلمات / k-mers‏ عبر جميع الجمل / التسلسلات. 

import matplotlib.pyplot as plt 


pern Scores = I] 
EOE 3t in renge (OX testo SMA E 

xX test permi itest 

xX kese permiar =< zencom Semo le (dist Cesta gN م‎ 
6ك لكت هنا‎ Ls testant) 

perm scores.append(abs (model.evaluate(X test perm, y test, 
verbose - 0)[1]*100 - 


model.evaluate(X test, y test, verbose - 
0) [1]*100)) 


plt.figure(figsize-[1606,5]) 

barlist > plt.bar(np.arange(len(perm scores)), perm scores) 
plt.xlabel('Bases'); plt.ylabel('Magnitude of saliency values') 
0014 
0.012 
0010 


0.008 


Magnitude of saliency values 
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إذا حددنا مواضع positions‏ / مؤشرات indices‏ الكلمات التي تغير الدقة فوق 0.01. فإننا نصل إلى 
الكلمات 0 و 4 و7 و 18 و34 و52 و 75 و81 و 104 و 130 و 146 و 182 باعتبارها الأكثر 
أهمية. ريما نلاحظ بعض الإثراء للكلمات المهمةني بداية الجمل. الآن نتحقق ببساطة من الكلمات 
الأكثر شيوعًا / k-mers‏ عبر جميع الجم لني المواضع أعلاه. 


import pandas as pd 
from collections import Counter 


Sconesmdre-Npdepatamramed M Baseserangexteni(permgscoresprEUScoreu 
perm scores]) 
intormetivea mees = list (stores Ce lscorss Ci Scoret] > 
0.01].index) 
reverse word map - dict (map (reversed, 
tokenizer.word index.items())) 
det 53622068 tTO CEE (list Or mA EES) a 

return [reverse word map.get(letter) for letter in 
list of indices] 
my texts > list(map(sequence to text, X test[informative indices, 


813) 


fig > plt.figure(figsize - (20, 15)) 
D = Cher (CONE EE (iren WEE YJ EOE SUL اك‎ im my CEES 

for item in sublist]).most common(20)) 
plt.bar(range(len(D)), list(D.values()), align = 'center') 
plt.title('Most Predictive K-mers', fontsize - 20) 
plt.ylabel("Counts", fontsize - 20); plt.xticks(rotation - 90) 
plt.xticks(range(len(D)), list(D.keys()), fontsize - 20) 


Most Predictive K-mers 


Counts 


TTGTAGTTIT 
AAGAAAAGAT. 
AATTAATAAT. 
ATTAATAATA 
TCCTTGTTIT 
AAATAATTAA 
AGTGAGCTGA. 
GTGAGCTGAG 
ATAAAAAATA 
TAATAATAAT. 
TAGATGCTAA 
AGATGCTAAA 


مما يبعث على الاطمئنان. نلاحظ أن v k-mers‏ ب CAT-rich k-mers) AT‏ يميزون أكثر ما 
يميزون بين تسلسلات النياندرتال المتقدمة والمستنفدة كما تم عرضه UA‏ المنشور السابق. 


LSTM (14‏ لاكتشاف 01۸4 لإنسان نياندرتال 


توقع جينات النياندرتال 

الآن سننظرفي تسلسل الجينات البشرية ونموذج LSTM‏ المدرب من أجل عمل تنبؤات عن مدى 
احتمالية توريث كل جين بشري من إنسان نياندرتال.في المنشور السابق» أوضحت كيفية استخراج 
تسلسل الجيناتفي ملف فاستا fasta-file‏ منفصلء لذلك T is‏ الآن هذه التسلسلاتء ونقسمها إلى 
ck- mers‏ ونحول k-mers‏ إلى أعداد صحيحة باستخدام Tokenizer‏ ونتوقع أصل إنسان نياندرتال 
باستخدام نموذج LSTM‏ المدرب. 


import pandas as pd 

from Bio import Segle 

from keras.preprocessing.text import Tokenizer 

from keras.preprocessing.sequence import pad sequences 


= 0; gere ssss — ||; gere see = || 
EOE Gene 3us 10م‎ pearse l RGS gere EC lean Ea, EASE) 
cutoff - 200 
if len (str (gene.seq)) > cutoff: 
continue 
genre 1de ADSENSE (Cene AE s Gene SEE (Gene senate ed] 
gene seqs.append(s gene) 
e = e + 1 
if e$10000 == 
print('Finished ' -* str(e) T ' genes") 


def getKmers (sequence, size): 


return [sequence[x:x-*size].upper() for x in range (len (sequence) 
= lze r d] 
kmer = 10 
Gene tekts = [V ' |3212 (Getters (i mer) Tor i in Gene Secs] 
tokendvzebr — Tokenvzert(); tokenuwszer.titconvtexts(gene texts) 
encoded docs - tokenizer.texts to sequences(gene texts) 
max length - max([len(s.split()) for s in gene texts]) 
X gene - pad sequences (encoded docs, maxlen - max length, padding - 
Lu Lu 
OSE) 


gene predictions - model.predict Classes (X gene) 
gene predictions prob - model.predict proba(X gene) 


gene pred df = pd.DataFrame(('Gene': gene ids, Cene Symbol': 
gene symbol, 

i "825016  : 
list(gene predictions.flatten()), 

i ع"‎ V e 

list(gene predictions prob.flatten())]) 
gene predl lt = Gene prec OF sort valves (C [E EEO ll, exstexeimelibarej = 
False) 
Sene precil حك‎ (gene pored لك 2ط !| غك‎ E ] == 1) > (Gene Prec chr Brog" ] 


= 10519) ] 
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Gene Gene Symbol Predict Prob 
7360  chr12:120884241-120901556 GATC 1 1.000000 


23845 Chr6:73844526-73853237 KCNQS-AS1 1 1.000000 
20238 chr4:40194587-40246364 RHOH 1 1.000000 
2022  chr1:174769035-174964445 RABGAP1L 1 1.000000 
2024  chr1:174904084-174923398 LOC101928696 1 1.000000 
8518 chr14:75230069-75304013 YLPM1 1 1.000000 
2068  chr1:180199433-180244188 LHX4 1 1.000000 
8408 €hr14:61176256-61190852 SIX4 1 1.000000 
2107 chr1:186369704-186370567 OCLM 1 1.000000 
2114  chr1:187412760-187446354 LINCO1037 1 1.000000 
8219 Chr14:24641234-24649463 RECS 1 1.000000 
8198 chr14:24422944-24438488 DHRS4 1 1.000000 
8109 Chr14:20779527-20801471 CCNB1IP1 1 1.000000 
2204  chr1:202955580-202976393 LOC100506747 1 1.000000 
8033  chr13:111766159-111768025  ARHGEF7-AS2 1 1.000000 
7926 chr13:85937738-86118797 LINCO0351 1 1.000000 
26185 chr7:33019086-33046543 FKBP9 1 1.000000 
7701 chr13:39106137-39260812 LINC00437 1 1.000000 
2418  chr1:226335704-226342678 ACBD3-AS1 1 1.000000 
7465  chr12:125396191-125399587 UBC 1 1.000000 
29638 chrUn gi000211:48503-93165 FLJ43315 1 1.000000 
18818 chr3:99979661-100044096 TBC1D23 1 1.000000 
17116 chr20:45947246-45949498  LOC100131496 1 1.000000 
8943 chr15:45406523-45410301 DUOXA2 1 1.000000 
8994 chr15:55647421-55700708 CCPG1 1 1.000000 
31193  chrX:154718673-154842622 TMLHE 1 1.000000 


عند التحقق من عدد الجينات المتوقع أن 0959 موروثة من إنسان نياندرتال» نؤكد النتيجة من المنشور 
السابق أن الغالبية العظمى من الجيناتء أي 22000 من أصل 31000 جينة بشرية تم تحليلهاء خالية 
من أصل إنسان نياندرتال. لذا توصلنا مرة أخرى إلى استنتاج مفاده أن التطور لسبب ما دفع بأصول 
إنسان نياندرتال بعيدا عن الجينات التي تعد معظم العناصر الوظيفية للجينوم البشري. بإلقاء نظرة 
فاحصة على قائمة جينات النياندرتال "الناجية survived‏ " ومقارنتها مع تنبؤات Random Forest‏ 
ضمن نموذج Bag of Words‏ من المنشور JI‏ نلاحظ عددًا من الجينات التي لها ارتباطات مع 
سمات وأمراض بشرية مختلفة. على سبيل QUA‏ تم التنبؤ بجين ANK3‏ باحتمال> 799 من قبل 
كل من Random Forest; LSTM‏ ليكون من أصل إنسان نياندرتال. من المعروف أن هذا الجين 
مرتبط بالاضطراب ثنائي القطب Bipolar Disorder‏ ويتم التعبير عنهني الغالبفي دماغ الإنسان. 
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nature > nature genetics > brief communications > article ANK3 


nature genetics SNPS JEIEL SINN TEILE UNE NA SAU الله إلا‎ UNE HILL LIB E OILS E URS 01 il1 الا‎ 
Brief Communication | Published: 1? August 2008 » | r 1810821736 [3 
Collaborative genome-wide association ^ 4 œ 
5 UE" 96 o Po, 
analysis supports a role for ANK3 and m 
CACNAIC in bipolar disorder | E. 


Manuel A R Ferreira, Michael C O'Donovan, [...] Nick craddock 


Nature Genetics 40, 1056-1058(2008) | Cite this article 
S08 Accesses | 778 Citations | 19 Altmetric | Metrics 


Abstract 
To identify susceptibility loci for bipolar disorder, we tested 1.8 million 


487 cases and 6,209 and identified a re 


assoc tation (rs10994236, P ^) in ANK3 (ankyrin G). We 


pund further support for thi isty reported CACNAIC (alpha. 


IC subunit of the L-type voltage-gated calcium channel; combined P = i TANKS 
am + م‎ e. eos om ومو‎ 
7.0 1075, rs1006737). Our results suggest that lon channelopathies may T T 
bc involved in the pathogenesis of bipolar disorder. 61 45 15 61 56 e 61 65 617 6175 
Mt 


يرتبط جين ANK3‏ المتوقع أن يكون من أصل إنسان نياندرتال بالاضطراب ثنائي القطب 


Gene expression for ANK3 (ENSG00000151150.21) 


COMAS AAA S AR AAT RA AA A A UA A RR TR 
Ade e ا‎ RA, a u We, SR oy حت‎ 
ISRN b MN VR 
e S d NG 


بالإضافة إلى uS‏ اقترحت بعض الدراسات أن أجزاء من أدمغة الإنسان المتورطةني الاضطرابات 
النفسية قد تتشكل من خلال الوراثة الجينية من إنسان نياندرتال. 


يؤوي الدماغ البشري "الصدى المتبقي residual echo‏ " لجينات النياندرتال 


هذا هو المكان الذي يمكن لعلم التطور أن يطلع فيه الطب الحيوي Biomedicine‏ على التطور 
التاريخى وأصل السمات التى أدت إلى أمراض الإنسان الحديثة. 
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الاستنتاج 

في هذا المنشور. تعلمنا أنه قد يكون من المفيد تطبيق نماذج الذاكرة الطويلة مثل LSTM‏ على بيانات 
تسلسل الحمض النووي DNA‏ المعروف بامتلاكها لارتباطات طويلة المدى على طول التسلسلات. 
لقد أظهرنا أن LSTM‏ حقق دقة مذهلة وتفوقفي الأداء على جميع النماذج الأخرى التي تكشف عن 
مناطق تقدم الإنسان البدائيفي الجينوم البشري الحديث. كشف تفسير النموذج أن k-mers‏ الغني ب 
1 هو الفرق الرئيسي بين الإنسان البدائي وزخارف الحمض النووي البشري الحديث. لقد توقعنا أن 
كر غاي condi‏ البقرية حالية مى أصل aba]‏ تادر ان سما يعن فما لخا C os‏ خلال 
التطور ضد أصل إنسان نياندرتال. يرتبط عدد من الجينات التي يتوقع أن تكون موروثة من إنسان 
نياندرتال بسمات بشرية مثيرة للاهتمام مثل الاضطراب ثنائي القطب. 


المصدر: 


https://towardsdatascience.com/lstm-to-detect-neanderthal-dna- 
843df7e85743 
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5 التعلم العميق على الميكروبيوم Deep Learning on gil‏ 
Human Microbiome‏ 
(استنتاج التركيب الميكروبي لعينة من تسلسل الحمض النووي) 

إنه المنشور التاسعفي عمودي "التعلم العميق لعلوم الحياة "Deep Learning for Life Sciences‏ 
حيث أحاول عرض أمثلة ملموسة لتطبيق الشبكات العصبية الاصطناعية artificial neural‏ 
networks‏ على مشاريع العالم الحقيقي من البيولوجيا الحاسوبية Computational Biology‏ 
وعلوم الحياة Life Sciences‏ .3( السابق» قمنا بتغطية بعض تطبيقات التعلم العميق للحمض النووي 
القديم Ancient DNA‏ وبيولوجيا الخلية المفردة «Single Cell Biology‏ وتكامل البيانات 
Data Integration‏ والتشخيص السريري (Microscopy Imaging‏ والتصوير المجهري 
Microscopy Imaging‏ بالإضافة إلى بعض التقنيات من معالجة اللغة الطبيعية CERAM (NLP)‏ 
مناطق إدخال الإنسان البدائيني الجينوم البشري الحديث.في هذه المقالة سوف نتعلم BUJ‏ يمثل 
الميكروبيوم البشري Human Microbiome‏ البيانات الضخمةفي علم الأحياء Biology‏ وكيفية 
تدريب مصنف الشبكة العصبية التلافيفية Convolutional Neural Network (CNN)‏ للتنيق 
بالتركيب الميكروبي لعينة الميتاجينوميات metagenomics sample‏ بدءًا من التسلسلات الأوليةفي 
ملف .fastq‏ 


الميتاجينوميات كبيانات كبيرة 

لسوء الحظء ليس من السهل البدءفي تطوير نماذج التعلم الآلي للتطبيقات البيولوجية والطبية الحيويةء 
في رأيي» بسبب نقص البيانات. ناقشت بعض التحدياتفي رسالتى السابقة هل لدينا بيانات كبيرةفي 
علو الحياة؟ لقد ذكرت هناك ثلاث اتجاهاتفي علوم الحياة تبدو واعدة للذكاء الاصطناعي والتعلم 
الآلي لأنه يبدو أن لديهم كميات كافية من البيانات» وهي: 


أوميكس خلية مفردة Single Cell Omics‏ 
التصوير المجهري Microscopy imaging‏ . 
بيانات الجينوميات Genomics data‏ تعتبر التسلسل ملاحظات إحصائية. 


d‏ التعليقات اقترح Mikael Huss‏ بيانات الميتاجينوميات Metagenomics‏ والميكروبيوم 
Microbiome‏ باعتبارها المصدر الرابع للبيانات الكبيرة.في الواقع» يمكن للمرء أن يجد الكثير من 
بيانات الميتاجينوميات المتاحة للجمهور» على سبيل المثال» باستخدام مورد EMBL-EBI‏ الرائع 
.MGnify‏ 
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MÓnify 


Submit, analyse, discover and compare microbiome data 


API | About 


Getting starte 


Search by Request analysis of 


Name, biome, or keyword Sequence similarity Your data A public dataset 


Or by data type 
354465 amplicon 3698 studies Latest studies 


x 24282 assemblies 325323 samples 
2050 — metabarcoding 430538 analyses EMG producod TPA motagenomics assembly of PRJEB34634 data sot | 
33946 metagenomes (Detailed study at the genetic level at bacteria in farm animals, human/animal 
2207 metatranscriptomes sewage, sewage treatment works and rivers, to work out the complex network of 
transmission of important antibiotic-resistant bacteria and antibiotic resistance 
Or by selected biomes genes) 
A B - The Third Party Annotation (TPA) assembly was derived from the primary whole 
= ra "m genome shotgun (WGS) data set PRJEB34634, and was assembled with 
© " metaSPAdes v3.14.1. This project includes samples from the following biomes: 
Human Digestive Aquatic ^ Marino Digestive root Mixed. 
(141609) — system (45927) (33390) system View more - 1 samples 
(84216) (32422) 
EMG produced TPA metagenomics assembly of PRJNA385854 data set 
6 8 (Marine metagenomes from the bioGEOTRACES project) 
Pis i ea nar The Third Party Annotation (TPA) assembly was derived from the primary whole 
nt Wa 
jenome shotgun (WGS) data sel PRJNA385854, and was assembled with unknown 
(26767! — (23687) — (10501 — (3857! —— oroduction gen oon Cot ordei 


السبب وراء تسمية Metegenomics‏ ببيانات كبيرة Big Data‏ هو تسلسل البندقية shotgun‏ 
1168 الرخيص نسبيًاء وبالتالي يتم ترتيب آلاف العينات» والطبيعة المنخفضة الأبعاد نسبيًا 
لبيانات الميتاجينوميات.في الواقع» يؤدي رسم خرائط لشظايا الحمض النووي DNA fragments‏ 
المتسلسلة للكائنات الميكروبية microbial organisms‏ المعروفة عادة إلى اكتشاف 1000-500 
ميكروب موثوق به» وهي ليستفي الحقيقة بيانات عالية الأبعاد مقارنةء على سبيل المثال» بالتنوع 
الجيني genetic variation‏ أو بيانات المثيلة methylation‏ التي تحتوي على ملايين من الأبعاد. 


التركيب الميكروبي مع SourceTracker‏ 

مع d‏ الاعتبار أن Metagenomics‏ توفر الكثير من البيانات لتطوير خوارزميات الآلة والتعلم 
العميق. سأحاولفي هذه المقالة تدريب شبكة عصبية تلافيفية (CNN)‏ يمكنها تقدير مصادر 
المجتمعات الميكروبية لعينة معينة. على سبيل (JUI‏ أخذ عينة مسحة swab‏ من سطح المكتبفي 
مكتبي» ما نوع الميكروبات التي أتوقع أن أجدها هناك؟ هل تشبه جراثيم بشرتي» أو ربما ميكروبات 
فموية من فمي؟ يمكن تقدير ذلك باستخدام برنامج رائع يسمى Source Tracker‏ 
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Processes 
u LN 
Sources": detected by 
SourceTracker " 7 
UM "Sinks": 
Migration Lab, Office, NICU 
Environmental 
Sampling 
Contamination 


during sampling 


Sample 
processing 


Observed 


Contamination 
Reagents during processing 


Sequences 


SourceTracker Lash‏ هي نسخة بايزية Bayesian version‏ من خوار زمية تجميع 
clustering algorithm‏ نمو z‏ خليط غاو سي Gaussian Mixture Model (GMM)‏ )343 
مشابهة لخليط ديريكليت متعدد الحدود (Direchlet Multinomial Mixtures‏ التي يتم تدريبها 
على مجموعة بيانات مرجعية تسمى المصادر (Sources‏ أي فئات مختلفة مثل التربة أو جرثومة الفم 
البشري أو الأمعاء البشرية المجسيغات وما إلى US‏ ويمكن تقدير A‏ [مساهمة كل مصدرق cose‏ 
اختبار تسمى الأحواض Sinks‏ 50.9« تقوم خوارزمية SourceTracker‏ بشكل صريح بنمذجة عينة 
حوض Sink sample‏ كمزيج من المصادر. P‏ نكهة Bayesian‏ للخوارزمية من استخدام 
Direchlet priors‏ عند ملاءمة fitting‏ النموذج. 


في الأصلء تم تطوير SourceTracker‏ لبيانات (16S‏ أي باستخدام جينات RNA‏ الريبوسوم 165 
فقط.في المقابل» سنحاول هنا تدريب المصنف باستخدام بيانات ميتاجينوميات البندقية shotgun‏ 
65 بالإضافة إلى ذلك لم يتم تصميم SourceTracker‏ لاستخدامهفي تسلسل 
الميتاجينوميات الخام» ولكنه يحتاج بدلاً من ذلك إلى وفرة ميكروبية microbial abundances‏ 
(وفرة (OTU‏ محددة بطريقة ماء على سبيل المثال من خلال خط أنابيب QIME‏ أو 
MetaPhlan2‏ أو .Kraken2‏ المقابلء فإن الهدف من مصنف CNN‏ الذي سنقوم بتدريبه هنا هو 
الانتقال من ملف fastq‏ إلى التنبؤ بالتركيب الميكروبي لعينة metagenomic‏ دون تحديد الكميات 
الوفرة الميكروبية. 
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بيانات مشروع الميكروبيوم البشري (HMP)‏ 

لتدريب مصنف CNN‏ سنستخدم مورد بيانات مشروع الميكروبيوم البشري العظيم Human‏ 
.Microbiome Project (HMP)‏ يوفر HMP‏ وفرة من الأصناف الميتاجينومية المحددة كمياً 
باستخدام MetaPhlan2‏ والتي يمكن تنزيلها من هنا. 


NIH Human Microbiome Project 


Characterization of the Characterization of microbiome 
microbiomes of healthy human and human host from three 
subjects at five major body sites, cohorts of microbiome-associated 
using 16S and metagenomic conditions, using multiple 'omics 
shotgun sequencing. technologies. 


Enter HMP Integrated Portal / 


- 


تم حساب ملامح الميتاجينوميات لأربعة أنسجة بشرية (مجتمعات ميكروبية microbial‏ 
:(communities‏ الفم Oral‏ الأمعاء «Gut‏ الجلد Skin‏ المهبل coUsl .Vagina‏ سنستخدم 
مصفوفة JI‏ 3 3 الميكروبية microbial abundance matrix‏ لاختيار الأجناس البكتيرية الخاصة 
بالأنسجة «tissue-specific bacterial genera‏ أي مجموعات البكتيريا التي تتوفر بكثرةفي واحد 
فقط من الأنسجة الأربعة» وبالتالي يمكن أن تكون بمثابة صانعي الميكروبات للأنسجة البشرية. لاحقاء 
سوف نستخدم الجينومات المرجعية للأجناس البكتيرية الخاصة بالأنسجة لتدريب مصنف CNN‏ 
على التعرف على المجتمعات الميكروبية cT)‏ والأمعاء والجلد. والمهبل) من التسلسلات الأوليةفي 
ملف 42560. سنيدأ بقراءة مصفوفة الوفرة الميكروبية وتصور العينات من الأنسجة البشرية الأربعة عبر 
مخططات تقليل الأبعاد PCA)‏ و .(tSNE‏ 


import pandas as pd 

import seaborn as sns 

from umap.umap import UMAP 

import matplotlib.pyplot as plt 

from sklearn.manifold import TSNE 
from sklearn.decomposition import PCA 


SHS SEE E ORE scar = 1.5) 
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microb = pd.read csv('microb.txt', sep = 'Nt') 

phen = pd.read csv('phen.txt', sep = 'Nt') 
phen['Color'] = 'blue' 

phen['Color'][phen['STArea'] == 'Oral'] = 'red' 
phen['Color'][phen['STArea'] == 'Skin'] = 'green' 
phen['Color'][phen['STArea'] == 'Vaginal'] = 'orange' 


X = microb.values 
X = np.logl10(X -* 1) 


Pihke sarewu Groaza = (20, S 
X reduced = PCA(n components = 2).fit transform(X) 
pilt 2م55 همه‎ (D FECES, Ol; »€ seehweeellso X). s = S. @ = 
phen['Color!']) 
plt.title('Principal Component Analysis (PCA): Human Microbiome 
Project (HMP)', 

fontsize - 25) 

plt.xlabel("PCA1", fontsize - 22); plt.ylabel("PCA2", fontsize - 
22) 


from matplotlib import cm 
import matplotlib.patches as mpatches 


my legende = MICE. Peren (color = Wolwe“, lee = EE, 
mpatches.Patch(color -» 'red', label - 'Oral'), 
mpatches.Patch(color = 'green', label = 'Skin'), 
mpatches.Patch(color = 'orange', label = 'Vagina')] 


plt.legend(handles - my legends, fontsize - 20) 


PIE ناودع‎ (E GSI Ze — (20, 5)) 
model - TSNE(learning rate - 200, n components - 2, random state 
12)" 


inig = X seexehwerselo a irer = Jii.‏ ,50 = تاشت لمهم 
verbose = 2)‏ 
Eene = model EiT 22325 OEM)‏ 
plr 562642 (tonels; Olp csl; d]; s = 50, ce = pien Colos i)‏ 
plt.title('tSNE: Human Microbiome Project (HMP)', fontsize - 25)‏ 
t SNEZ T Onesie‏ 11ت 22ل عاللم 2 )29 S NEINM EE onse‏ الت هت للد اطلام 
)220 
pitesiegend/(hiandl'esc-emyclegendsp EO SIZES = 20)‏ 


Principal Component Analysis (PCA): Human Microbiome Project (HMP) 


PCA2 
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1SNE: Human Microbiome Project (HMP) 


2 +, 3 
deu 


ISNE1 


في كل من مخططات PCA‏ و SINE‏ يمكننا أن نرى أن العينات يمكن فصلها بوضوح بواسطة 
الأنسجة الأصلية من حيث الوفرة الميكروبية. هذا يعني أنه يجب أن يكون من السهل جد تدريب 
م «Sa? GNN‏ الف بسي الغا Rune Rad‏ عن طريق قعص يليل انض الووي 
الميكروبي 3microbial DNA sequences‏ العينة. ومع «XS‏ من أجل صنع مخططات PCA‏ 
CNE‏ « استخدمنا الوفرة الميكروبية microbial abundances‏ وليس البيانات المتسلسلة نفسهاء 
لذلك سيتعين علينا أولاً استخراج الكائنات الميكروبية التي تفصل أفضل عينات الأمعاء والفم والجلد 
والمهبل. سيتم استخدام الجينومات المرجعية Reference genomes‏ من الكائنات الميكروبية 
Sus ÄI‏ وقت لاحق لإنشاء مجموعة بيانات التدريب train data set‏ من التسلسلات لمصنف 
.CNN‏ 


اختيار الميكروبات الخاصة بالأنسجة 

لاختيار الكائنات الميكروبية التي تفصل بشكل أفضل بين عينات الأمعاءء والفم» والجلد. والمهبلء 
يمكننا على سبيل المثال تدريب مُصنف Random Forest‏ وإلقاء نظرة على أهمية الميزات 
واتجاهات تأثيرها. ومع ذلك يبدو أن هناك الكثير من الميكروبات الخاصة بالأنسجة. أي الميكروبات 
التي لها وفرة عاليةفي نسيج واحد ولكنها تكاد تكون معدومةفي جميع الأنسجة الأخرى. على سبيل 
JEI‏ إذا نظرنا إلى Haemophilus parahaemolyticus‏ الذي يحتوي على مؤشر 1950 إطار 
بيانات الوفرة الميكروبية» فإنه يبدو خاص بالفم :very Oral-specific‏ 


Cire =‏ 505250 ده MSO,‏ = لكك 
pd.DataFrame(('Tissue':‏ 
LEC P xeu v j phen SrAreat] value CONES |] "62207 se‏ 
Sn ponen Surat V] value COUN SKI Om‏ 


['Vaginal']*phen['STArea'].value counts()['Vaginal'] = 
[ Gie“ ll Re EIA | avedre ounmtsse T euei) y 
'Abundance': 
list(microb.loc[phen['ID'][phen['STArea'] -- 
Horzel Ul] ]لد‎ gr eol) sr 
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list (microb.loc[phen['ID'][phen['STArea'] == 
JS aV T. sadeel s sel) a 
list (microb.loc[phen['ID'][phen['STArea'] == 
Vag a |] [| الك هلله‎ piach] 3» 
list (microb.loc[phen['ID'][phen['STArea'] == 
"(eme ||, | oO lS, seal) Y) 
PEE 2240126 ) 620521224 = (20 IS 
sas AEDES ce = 15-5502017 y UADIT dance Cate = تناه‎ 254 did) 
plt.title('Haemophilus parahaemolyticus') 


Haemophilus parahaemolyticus 


0,0012 


0.0010 


0.0008 


Abundance 


0.0006 


0.0004 


0.0002 


0.0000 


Skin Vaginal Gut 


أدناهء من أجل التبسيط. سنركز على الميكروبات البكتيرية hi‏ أي سيتم تجاهل العتائق archaea‏ 
والفيروسات «Viruses‏ وسيتم الاحتفاظ بالكائنات البكتيرية المصنفة على مستوى الجن س في مجموعة 
بيانات HMP‏ لمزيد من التحليل. سنقوم ببناء قوائم بالأجناس البكتيرية الخاصة بالأنسجة tissue-‏ 
«specific bacterial genera‏ ونستخدم أسمائها "لالتقاط "erepping‏ الجينومات المرجعية 
البكتيرية من قاعدة بيانات RefSeq NCBI‏ . لذلك. قمنا هنا بتقسيم المصفوفة الإجمالية للوفرة 
الميكروبية microbial abundances‏ إلى وفرة الأجناس البكتيرية bacterial genera‏ 
abundances‏ فقطء يمكننا أن نرى أن هناك 227 جنسا بكتيريًا MIS sa p‏ مشروع .HMP‏ بعد ذلك 
سنستعرض جميع الأجناس البكتيرية HMP‏ ونبني قوائم بالأجناس الخاصة بالفم والجلد والمهبل 
والأمعاء Giy‏ لمعيار بسيط: إذاكان الجنس البكتيري أكثر وفرة 10 مرا تفي نسيج واحد مقارنة بالجميع 

„tissue-specific بالأنسجة‎ Éole الأنسجة الأخرىء» يعتبر الجنس‎ 
microb - microb[[i for i in list(microb.columns) if not 's ' in i 
and 'g ^" in i 


and 'k Bacteria' in i and not 'noname' in i 
and not 'unclassified' in i]] 


gur specirie liste = list U7‏ 7 زا عات كنا 
list (D) E vagina Spec 1C list = list)‏ 


oral specific list 
Skinispec E SE 


for ind in range (len (microb.columns)): 
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my data = pd.DataFrame(('Tissue': 
diste. (FOCAL j preni SrArea" l value counts (O || "sse" || «x 
ekimi onen emare] velve COUMES )( SR] a 
['Vaginal']*phen['STArea'].value counts()['Vaginal'] 7 
lL EE [| pasal Sabe " ]] هن لمم‎ COURES O ff ewt" 1) 7 


'Abundance':list (microb.loc[phen['ID'][phen['STArea']--'Oral'],].il 
toxe: Sp abiovel]| E 
list (microb.loc[phen['ID'][phen['STArea'] == 
Jena I.T] .adee| s. sel) aF 
list(microb.loc[phen['ID'][phen['STArea'] == 
TWEEN lg اك فلل‎ s, AAAI) a 
list (microb.loc[phen['ID'][phen['STArea'] -- 'Gut'],].iloc[:, 
ind])]) 


ratio = float(my data.groupby('Tissue', 


sort-False).mean().sort values( 
'Abundance', ascending = True).iloc[3, :] / 
my data.groupby('Tissue', 
sort = False).mean().sort values('Abundance', ascending = 


ame) 5027 sl) 


if(ratio > 10 and 'k Bacteria' in microb.columns[ind] 
emel EO Y ain MEE. columnas [5l] ) 8 


abe (iub Care gr owgoy O Missus, SOLE = 
False).mean().sort values( 
'Abundance', ascending = True).index[3] == 'Oral'): 
oral specific list.append (microb.columns[ind]) 


Lety Carte gr owgoy O Missus, SOE = 
False).mean().sort values( 
'Abundance', ascending = True).index[3] == 'Skin'): 
skin specific list.append (microb.columns[ind]) 


abit (Gub Carte GEO (C Missus”, SOE = 
False).mean().sort values( 
'Abundance', ascending = True).index[3] == 'Vaginal'): 

vagina specific list.append(microb.columns[ind]) 


if(my data.groupby('Tissue', sort - 
False).mean().sort values( 
'Abundance', ascending = True).index[3] == 'Gut'): 
gut specific list.append (microb.columns[ind]) 


tissue Syene: lise = [f 
Tor tissus im [oral specirtie list, CU SPee list, 
Skin علط عنم‎ Ligt, 

veine Specii SENE 


parsec Gents bacteria = lise (seti -soliet | 93) Sl Sor 3b 3s 
tissue])) 

parses genue bacteria = [1 replace" "e “Yu form st im 
parsed genus bacteria] 

tissue specific genera - list(set(parsed genus bacteria)) 


tissue specific list.append(tissue specific genera) 
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for index, tissue in enumerate(['oral','gut','skin','vagina']): 
with open('tissue specific genera names ' -* tissue Û 
Jy TUN Liest. tsen MW) as T3 
ror iten im ESSE SPECIE Ee liseli nee] s 


9 


f.write("$sWNn" 5 item) 


يمنحنا هذا المعيار البسيط لخصوصية الأنسجة l Cz 61 tissue-specificity‏ بالفم» 535 
غاا بالأمعاى و49 غاا بالجلد» و16 جنا بكترا خاضًا بالمهيل . ذعونا تخار apa‏ وفرة من 
بعض الأجناس الخاصة بالأنسجة من كل من الأنسجة الأربعة: 


sample microb names = ['Neisseria', 'Actinomyces', 'Haemophilus', 

'Bacteroides', 'Akkermansia', 
'Faecalibacterium', 

'Staphylococcus', 'Propionibacterium', 
'Peptoniphilus', 

'Lactobacillus', 'Gardnerellea', 
'Ureaplasma'] 
GENUS index MEO. Columns. Ge oe (nme sore مه‎ 10612615 COLUMNS LE 
("gy Vang 2 i TON) 

for j in sample microb names] 
for i, ind in enumerate(genus index): 
EE 2 SOOO (A, 39. 3L 4r L) 
groupped data - pd.DataFrame(('Tissue': 

SE Orei N Chen V Sataverexen " T] دس‎ vexexoaane st (O V Orav] we 
"Skin']*phen['STArea'].value counts()['Skin'] a 
Vaginal) Chen) s SEAneaswvalueecountsi) s دض يت‎ | < 
CUE l onen oae يك‎ ll : فعس نمع 12 للدي‎ )( [E GUE 13) 7 
'Abundance': list(microb.loc[phen['ID'][phen['STArea'] -- 
OEM Il, qos scibexe: |] 5 امسن‎ [| Jis 
list (microb.loc[phen['ID'][phen['STArea'] == 
ETO | م‎ lo LOCI ael) a 
list (microb.loc[phen['ID'][phen['STArea'] == 
VEER lg lot LOC, ame) a 


phen SIAEeA | -- 'Gut'],].iloc[:,‏ | سس" loc] Shen‏ ظن 2ك 22 ) عاك ذلا 
ind])])‏ 
sns.barplot(x - "Tissue", y - "Abundance", data -‏ 
groupped data)‏ 
joi seige (4) hen sdl eios (045r p‏ 


plt.title(sample microb names[i]) 


229 15( التعلم العميق على الميكروبيوم البشري 


Neisseria Actinomyces Haemophilus 
0.150 
0.10 
0.06 0.125 
0.08 
0.100 
0.06 
09$ 0.075 
0.04 
0.050 
0.02 
0.02 0.025 
0.00 =m —— P 0.00 — a 0.000 == EXE s 
Oral Skin Vaginal Gut Oral Skin Vaginal Gut Oral Skin Vaginal Gut 
Bacteroides Akkermansia Faecalibacterium 
0.5 0.020 
0.04 
0.4 
0.015 0.03 
0.3 
0.010 0.02 
0.2 
01 0.005 0.01 
00 : شت شك‎ 0.000 . 9 000 9 e Ó 
Oral Skin Vaginal Gut Oral Skin X Vaginal Gut Oral Skin ^ Vaginal Gut 
-— Staphylococcus Propionibacterium Peptoniphilus 
0.005 
0.08 03 
0.004 
0.06 
02 0.003 
005 0.002 
0.1 
0.02 0.001 
0.00 : : 00 ب‎ 0.000 == : 
Oral Skin Vaginal Gut Oral Skin Vaginal Gut Oral Skin Vaginal Gut 
Lactobacillus Gardnerella Ureaplasma 
0.10 
08 0.003 
0.08 
06 
0.06 0.002 
04 
0.04 
0.001 
02 0.02 
00 t 0.00 : 0.000 
Oral Skin Vaginal Gut Oral Skin Vaginal Gut Oral Skin Vaginal Gut 


أعلاه» يمكننا أن نرى بوضوح أننا تمكنا من اختيار علامات أجناس بكتيرية قوية جد خاصة بالأنسجة. 
المهبل كان الأقلء أي 16 Co‏ خاصًا بالأنسجة. ومع ذلك. عند إلقاء نظرة فاحصةء يمكن للمرء أن 
يرى أنه اشتمل على أجناس مثل Burkholderia‏ و Ralstonia‏ و Bordetella‏ المشبوهة ومن 
المحتمل جد أن تكون ملوثات كاشف PCR reagent contaminants) PCR.‏ ). لذلك قمنا 
بفحص قائمة الأجناس البكتيرية ال 16 الخاصة بالمهبل بعناية ويمكننا أن نستنتج بثقة خصوصية 
المهبل vaginal specificity‏ ل 12 منهم فقط لأسباب مختلفة. لذلك. من أجل الحفاظ على التوازن 
بين الأنسجة لتحليل التصنيف. سنختار أكثر 12 علامة خاصة بالأنسجة لكل من الأنسجة الأربعة. وهنا 
تأتي الأجناس البكتيرية التي اخترناها: 
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Oral Gut Skin Vagina 

0 Neisseria Blautia Staphylococcus Mobiluncus 
1 Veillonella Faecalibacterium Peptoniphilus Sphingopyxis 
2 Actinomyces Bacteroides Citrobacter Ureaplasma 
3 Haemophilus Dorea Enhydrobacter Caulobacter 
4 Rothia Akkermansia Finegoldia Gardnerella 
5 Leptotrichia Clostridium  Propionibacterium Chlamydia 
6 Cardiobacterium Ruminococcus Acinetobacter Asticcacaulis 
7 Capnocytophaga  Subdoligranulum Massilia Mycobacterium 
8 Oribacterium Oxalobacter Hymenobacter X Herbaspirillum 
9 Alloprevotella Oscillibacter Corynebacterium Lactobacillus 
10 Gemella Eubacterium Bacillus Achromobacter 
11 Fusobacterium Bilophila Micrococcus Atopobium 


بعد الكثير من التفكير» قررت استبعاد Streptococcus‏ من قائمة الأجناس الخاصة بالفم. على الرغم 
من أن جنس Streptococcus‏ يبدو أنه خاص ie‏ إلا أنه يشمل الأنواع التي يمكن أن تكون وفيرةفي 
الأنسجة الأخرى مثل الأمعاء أيضًا. هذا يمكن أن يخلط بين مصنف CNN‏ لأننا إذا قمنا بالإشارة إلى 
الجينومات الخاصة بالعقدية Streptococcus‏ فسننتهي بالعديد من التسلسلات "الملوثة 
"contaminating‏ التي تنشأ من أنواع العقدية الخاصة بالأمعاء ومع ذلك نحصل على تسميات فموية 
Oral labels‏ خاطتة إذا افترضنا أن العقدية هي نوع فموي محدد -oral-specific genus‏ 


يمكننا التحقق من أن الأجناس الميكروبية المختارة يمكنها فصل عينات الفم» الأمعاء الجلد. المهبل 
بشكل جيد. لهذا الغرض, دعونا نجري تجميعًا سريعًا استنادًا إلى مسافة ارتباط سبيرمان Spearman‏ 
correlation distance‏ بين العينات واستخدام 8 Cur‏ ميكروييًا محددًا (12 لكل من الأنسجة 
الأربعة). 


import scipy as sp 
import seaborn as sns 


SRS. Ser E OME Seale = 1) 


microb.columns 
microb.columns 


lic SONE [93 J| EOE at aum MAE SO. codon 
lL replace ep Ty oue aL wa ل كن لمت ومس ا‎ 
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gen List = [|'Netrsserra", ع‎ 1-7 "Actuinomyces', 
'Haemophilus', 'Rothia', 

'Leptotrichia', 'Cardiobacterium', 
'Capnocytophaga','Oribacterium','Alloprevotella', 
'Fusobacterium', 'Blautia', 'Faecalibacterium', 
'Bacteroides','Dorea','Akkermansia', 

y; "VSyerlolLieussumwbwun", "V(Orxebelocuetes y;‏ فرعم مهمه HUM, RUW‏ نمدم ورت دما 
e V n‏ ل OSE‏ 

'Eubacterium', 'Bilophila', 'Staphylococcus', 'Peptoniphilus', 
"(CaLiETe olo E GHe v 

'Enhydrobacter', 'Finegoldia', 'Propionibacterium', 
'Acinetobacter', 'Massilia', 

'Hymenobacter', 'Corynebacterium', 'Bacillus', 'Micrococcus', 
'Mobiluncus', 
'Sphingopyxis','Ureaplasma',' 'Caulobacter', 'Gardnerella', 'Chlamydia' 
"pA ee aiiis 

'Mycobacterium', 'Herbaspirillum', 'Lactobacillus', 
'Achromobacter', 'Atopobium'] 

microb genus selected > microb[gen list] 


rho,  - sp.stats.spearmanr(microb genus selected.T) 

rho - pd.DataFrame(rho, index > microb genus selected.index, 
columns > microb genus selected.index) 

sns.clustermap(rho, cmap -» 'vlag', figsize - (20, 20)) 

plt.text(5,1.2,'Clustering HMP samples by Spearman correlation 

distance',fontsize-35) 


Clustering HMP samples by Spearman correlation distance 
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نلاحظ بوضوح 4 مجموعات تتوافق مع عينات الفم والأمعاء والجلد والمهبل من مشروع HMP‏ 
أكبر مجموعة هي عينات الفم.في حين أن ثاني أكبر تجمع يتوافق مع عينات Gut HMP‏ 


إعداد البيانات وتدريب مصنف CNN‏ 

الآن نحن بصدد استخدام أسماء 48 جنسًا بكتيريًا محددًا خاصًا بالأنسجة لاستخراج معرّفات الجينوم 
المرجعية لجميع الأنواع والسلالات المقابلة من قاعدة بيانات RefSeq NCBI‏ يوضح المقتطف 
أدناه كيفية تنزيل واستخراج معرفات الجينوم المرجعية للأنواع والسلالات الخاصة بالأنسجة المقابلة 
للأجناس ال 48 المختارة الخاصة بالأنسجة. لهذا الغرضء سنستخدم ملف مطابقة الاسم إلى المراجع 
MapBactName2ID.txt‏ الذي يمكن تنزيله من github‏ الخاص بي. تم إنشاء الملف عن طريق 
استخراج رؤوس الجينومات المرجعية ومطابقة أسماء ملفاتهم (GCF-ids)‏ بالعناوين. 


#Download bacterial reference genomes from NCBI RefSeq 

wget 

ftp://ftp.ncbi.nlm.nih.gov/genomes/refseg/bacteria/assembly summary 
EXE 

grep 'Complete Genome' assembly summary.txt \ 

» assembly summary complete latest reference genomes.txt 

awk -F "Nt" '$12--"Complete Genome" && $11--"latest"(print $20)]' 
assembly summary.txt ١ 

» assembly summary complete latest reference genomes paths.txt 


mkdir BacterialGenomes 

OE 3L TM $ (Cat 

assembly summary complete latest reference genomes paths.txt) 
do 

wget -P BacterialGenomes $[(i])/*genomic.fna.gz 

done 


Grep reference genome IDs by the selected genera names 

grep -wFf tissue specific genera names oral 12genera.txt 
apBactName21D.txt » N 

p SUS SPec fasta LDS Oral, TxE 

grep -wFf tissue specific genera names gut 12genera.txt 

apBactName21D.txt » ١ 
Et SUS SUSCLELE fasta IDS GUE, txt 

grep -wFf tissue specific genera names skin 12genera.txt 
apBactName21D.txt < ١ 
TISSUS 5 2 انط 1د‎ Taste DDS Sim, TAE 

grep -wFf tissue specific genera names vagina 12genera.txt 
apBactName21D.txt < ١ 
tissue specific fasta IDs vagina.txt 


OI‏ عندما يكون لدينا معرّفات الجينوم المرجعي (ملفات (fasta‏ المقابلة للأجناس الخاصة بالأنسجة 
يمكننا تقسيم الجينومات المرجعية وإنشاء 4 مجموعات من التسلسلات (على سبيل المثال 80 nt‏ 
طويلة) مع التسميات 0 و1 و2 و3 لكل مجموعة تتوافق مع الأجناس الميكروبية للفم والأمعاء والجلد 
والمهبل.في الحلقة cobol‏ قرأنا أولاً الملفات التي تحتوي على معرّفات fasta‏ لكل من الأنسجة الأربعة, 
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ثم نقرأ ملفات fasta‏ لكل من معرفات fasta‏ ونختار 3000 تسلسل عشوائي بطول 80 nt‏ أثناء ذلك 
سنقوم Cad‏ بإسقاط التسلسلات التي تحتوي على N‏ و H‏ و M‏ وغيرها من النيوكليوتيدات غير 
المتعارف عليها ونقتصر على التسلسلات التي تحتوي على A‏ و C‏ واا وى فقط. 


import gzip; import random; import pandas as pd 


nt = 80 # length of each sequence 
Nseq = 3000 # number of randomly drawn sequences from each fasta- 
file 

random.seed(123) 


all tisstes seas = f] 
all tissues labs = |] 
for lab, tissue in enumerate(['oral', 'gut', 'skin', 'vagina']): 


print('Working with tissue: () 
عاد جا جاو جلي عا جارد جلي جاو عاذ جلو‎ ck ckckckckck ckck kckckckckckckck ckckckck ck ck k ck ck ' .format (tissue) ) 


EEE CE = Olu OAC COV tTisste تع عم‎ fasta LDS | r TISSUE cr 


idc tu 
header = None, sep = 'Nt') 
tissue - [D 


for i in range(fasta df.shape[0]): 


waea Gaio ISA resce CEO IE, EY aS MERE 
content = f.readlines() 
del content [0] 


random seqs random.sample(content, Nseq) 
random secs — | oxesneseae )( [Omt] decode) Eo J im 
random seqs] 
random seqs = [k for k in random seqs if 
Ee COE CAY = (0 uel Eo انافك‎ ) QU) 2 ( 


and ko Coume (G = O 

and k.count('T') » 0 and len(list(k)) 2 
ique amel UIN MOE wa k 

and 'H' not in k and 'K' not in k and 
VIV sexus sus. Je 

and VRE mot wa Pe cuml UU MOE im Js amd 
(iU OE sum Me 

and "زلا‎ mow iia Pe aNd "xz HOE ag $e and 
SE Oi] 


Tiges sels = Tige sece r andon sece 
a (a ١ D 5 SOO == (00) 8 
print('Finished () fasta-files'.format(i -* 1)) 


EL tissues SeS eas sues segs T ESSE SEAS 
print(all tissues segs[(len(atl tissues seqs)- 

S) نمه د‎ (assi 65252015 secs) l) 
لالد‎ SSUES labs = alil tissues leis r [lab] ORS SEIS) 
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prime lali tisstes labs rema 2 506 s 
SE LENE trgsues leiss) l) 


بمجرد إنشاء مجموعة بيانات من التسلسلات ذات العلامات labelled sequences‏ حيث يحصل 
كل تسلسل على تسمية 0 أو 1 أو 2 أو 3 تتوافق مع Vaginas Skin; Gut; Oral‏ سيتعين علينا 
تحويل التسلسلات إلى موتر واحد مشفر ساخنا numpy 3 54.2») one-hot-encoded tensor‏ 
ثلاثية الابعاد) يمكن قراءته بواسطة خوارزمية التعلم العميق مثل CNN‏ (11. بعد ذلك. سنقوم Ca‏ 
بتقسيم التسلسلات ذات التشفير الواحد الساخن إلى مجموعات فرعية للتدريب والاختبار. 


import numpy as np 
from sklearn.preprocessing import LabelEncoder, OneHotEncoder 


input features - [] 
integer encoder - LabelEncoder(); one hot encoder - OneHotEncoder() 
FOE Sectera in all tissues S6065 
integer encoded = integer encoder.fit transform(list (sequence)) 
integer encoded - np.array(integer encoded).reshape(-1, 1) 
one hot encoded - one hot encoder.fit transform(integer encoded) 
input features.append(one hot encoded.toarray()) 
input features <> np.stack(input features) 


one hot encoder - OneHotEncoder() 
Labels = mp o arrey ads tisgues lalis) reshepe (=i, t) 
input labels = one hot encoder.fit transform(labels).toarray() 


from sklearn.model selection import train test split 
rain feature, CSSt EEIEUEES, crain ae test labels = 
trein test sdb 

input features, input labels, test size = 0.25, random state = 
42) 


أخيرًاء دعنا نكتب بُنية بسيطة 1D CNN‏ ونبدأفي تدريب المصنف على التعرف على أنماط التسلسل 
التي تتوافق مع 4 فئات هي المجتمعات الميكروبية عن طريق الفم والأمعاء والجلد والمهبل. 


from tensorflow.keras.optimizers import SGD 

from tensorflow.keras.models import Sequential 

from tensorflow.keras.callbacks import ModelCheckpoint 
from tensorflow.keras.callbacks import ReduceLROnPlateau 
from tensorflow.keras.layers import 
Convi1D,Dense,MaxPoolinglD,Flatten,Dropout 


model = Sequential )( 
model.add(ConviD(filters-512,kernel size-20,input shape-(train feat 
ures.shape[1],4), 


padding = 'same', activation = 'relu')) 
model.add(MaxPoolinglD(pool size - 2)) 
model.add(Dropout(0.2)) 
model.add(Flatten()) 
model.add(Dense(256, activation = 'relu')) 
model.add(Dropout(0.1)) 
model.add(Dense(4, activation = 'softmax')) 
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epochs = 30; lrate = 0.01; decay = lrate / epochs 

SGD(lr = lrate, momentum = 0.9, decay = decay, nesterov =‏ = موه 
False)‏ 

model.compile(loss-'categorical crossentropy',optimizer-sgd,metrics 
-['accuracy']) 


checkpoint = 
ModelCheckpoint("weights.best.hdf5",monitor-'val accuracy',verbose- 
1, 

save best only - True, mode - 'max') 
EID sEeduccelROnElatcaumonitons- yal accuracy“, actor OR 


patience - 5, 

veroose = 1, mim Joe = 0.0001) 
history mede ll fitt rauimeteatures, treim labels, Epocha = cepochsy, 
vez DOSE = i; 


wa date On split = 0,25, paren size = 32; 
shuffle = True, 
callbacks - [rlrp, checkpoint]) 
Model Loss 


—— Train 
| — Validation 


1075 | 


1.050 | 


1.100 


1.025 ١ 


oss 
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3 
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0975 NS 
0.950 س‎ 
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— Validation 


Accuracy 
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15 
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أفضل طريقة للتحقق مما إذاكانت الشبكة قد تعلمت تصنيف التسلسلات هي تقييم أدائها على مجموعة 
اختبار جديدة تتكون من بيانات لم تلاحظها على الإطلاق أثناء التدريب. هناء نقوم بتقييم النموذج على 
مجموعة الاختبار ورسم النتائج كمصفوفة ارتباك -confusion matrix‏ 


import itertools; import numpy as np 
from sklearn.metrics import confusion matrix 
import seaborn as sns; import matplotlib.pyplot as plt 


plt.figure(figsize - (10,8)) 


predicted labels - model.predict(np.stack(test features)) 

cm > confusion matrix(np.argmax(test labels, axis - 1), 
np.argmax(predicted labels, axis - 1)) 

print('Confusion matrix: Nn',cm) 


cm = cm.astype('float') / cm.sum (axis = 1)[:, np.newaxis] 


plt.imshow(cm, cmap - plt.cm.Blues) 
plt.title('Normalized confusion matrix') 
jobs CO EOE DRE (0) 
plt.xlabel('True label') 
plt.ylabel('Predicted label') 
MESELE, i. 2. Sie mueve, 15 2» 3]) 
joie.» GE LORY SEE V ) 
for i, j in itertools.product(range(cm.shape[0]), 
range(cm.shape[1])): 
E cere (y A, EOE (emi Ul; 9.32354) 5 
horizontalalignment - 'center', 
color = 'white' if cm[i, j] » 0.5 else 'black') 


Normalized confusion matrix 
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True label 


scores = model.evaluate(test_features, test_labels, verbose = 0) 
print("Accuracy: %.2f%%" % (scores[1]*100)) 


Accuracy: 59.52% 
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التمثيل الرسومي لمصفوفة الارتباك هو خريطة الحرارة الزرقاء blueish heatmap‏ التي توضح بنية 
تشبه الكتلة block-like structure‏ مما يعني أن المصنف 1D CNN‏ كان قادرًا على التمييز بين 
الفتات الميكروبية الأربعة جيدا. قد يبدو متوسط دقة التقييم الإجمالية البالغة 760 منخفضًا للوهلة 
الأولى OY‏ عقولنا مصممة على مشكلة تصنيف ثنائي حيث يمكن أن يعطي المصنف العشوائي دقة 
أساسية تبلغ 1/50 لذلكء قد تبدو نتيجتنا 60/ أفضل قليلاً من المصنف العشوائي. ومع ذلك يرجى 
تذكر أننا نتعامل هنا مع 4 فئات, وبالتالي يجب أن يمنحنا المصنف العشوائي دقة متوسطة تبلغ 1.25 
(يمكن تأكيدها عن طريق المحاكاة غير معروض هنا) مع انحراف معياري يبلغ حوالي 110-5 
اعتمادًا على حجم العينة. لذلك. دقة 60/ أعلى بكثير من القاعدة 7.25 التي يتوقعها المرء من مصنف 
عشوائي. علاوة على ذلك. سنستخدم المصنف المدرب أدناه للحصول على تقدير تقريبي لمساهمات 
المجتمع الميكروبيفي عينة ميتاجينومية عن طريق حساب متوسط التنبؤات من آلاف تسلسلات 
الحمض النووي. بافتراض أن دقة المصنف بنسبة 7.60 تسمح بالتنبؤات الصحيحة لغالبية التسلسلات» 
على الرغم من عدم تصنيفها جميعًا بشكل صحيح. إلا أن هذا لا يزال يمنحنا حدسًا جيدا حول المجتمع 
الميكروبي (الفم أو الأمعاء أو الجلد أو المهبل) الذي جاءت منه العينة. 


عمل تنبؤات عن التركيب الجرثومي 

نحن هنا بصدد التحقق مما إذا كان يمكن استخدام مصنف CNN‏ المدرب لاستنتاج التركيب 
الميكروبي microbial composition‏ لعينة ميتاجينومية عشوائية. لهذا الغرضء. سنختار ملفات 
fas metagenomic‏ العشوائية (من قواعد بيانات HMP‏ أو MGnify‏ أو 
(DIABIMMUNE‏ ونضع تنبؤات لكل تسلسل ميتاجينومي» ونعرض كسور التسلسلات التي تم 
تخصيصها لكل فئة من الفئات الأربعة (الفم. والأمعاء. والجلد والمهبل)ء التي تتوافق تقريبًا مع أجزاء 
المجتمعات الميكروبية (التركيب الميكروبي (microbial composition‏ الموجودةفي كل عينة. لنبداً 
ببعض العينات من مشروع HMP‏ أعلم أننا استخدمنا وفرة HMP‏ لاختيار العلامات الميكروبية 
الخاصة بالأنسجة (لم نستخدم بيانات التسلسل الخام «(raw sequencing data‏ ويمكن أن يكون 
هناك تحيزفي استخدام ملفات HMP fastq‏ لاستنتاج تركيبتها الميكروبية. ومع ذلك. فهذه بداية جيدة 
على الأقل إذا فشل مصنف CNN‏ عينات HMP‏ فمن الصعب توقع أداء جيدفي العينات المستقلة. 
du‏ سوف نكرر هذا الاستنتاج باستخدام عينات ميتاجينومية مستقلة m‏ من مشاريع أخرى غير 
مشاريع ۲ 11.ني الحلقة آدناه» قرأت ملفات HMP fastq‏ (اخترت Élie‏ عينتين من مسحات 
الفم. والأمعاء (Stool lI)‏ والجلد والمهبل)ء وقمت بترميز تسلسلاتهم الساخنة وتشغيل التنبؤات 
باستخدام مصنف CNN‏ المدرب. بعد ذلك قمت بتحديد أكثر التنبؤات موثوقية حيث حصل 
مجتمع ميكروبي واحد على احتمال 80/ على الأقل. Aul‏ أرسم كسور fractions‏ التسلسلات التي 
حددها المصنف لكل مجتمع ميكروبي. 


import numpy as np 
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from Bio import SeqIO 

from tensorflow import keras 
from collections import Counter 
from 


Sklearn.preprocessing import LabelEncoder, 


top mE. 


'SRS055495', 


" SIS TSIZ y 


[ls skim list 


Orale 


lige = [ Oral,‏ ده دنا 
'Vagina', 'Vagina']‏ 
Sample list = [VORSOTIZA‏ 
BSE SOINS GNE‏ 
SRO IGS y‏ 
me = G07 OUEOEE = 06‏ 
Gral lise = Il; cut list =‏ 
6ك 11 Eo gd in ange (Len (sample‏ 
tese sec liste = [p‏ 


4L 


CRIME V p 518818 LISE LJ 


ESE O 12 


'.denovo duplicates marked.trimmed.singleton.fastq' 


EAS EOL)? 


>= 80: 


EOE FECES in ceco عات 629 ) 52 وم‎ ELLE, 
if len (str (record.seq) ) 


test seq ligt: 26 21) عه‎ (record.seq)) 


OE J EM test SOC list] 


IES EES OD OEE T 
[e for k in test SO list L 


test SEG list = 
test sec list 


k- COME 2 (0 EAC KOON (CCE 2 Q0 eel 
k CONE (EY > 0 
and k.count('T') » O and len(list(k)) -- 
euol NU mow abet Je 
cuml VET AOE sua. Je anel UY MOE im k cua] VII 
3üg Je 
Eumgl VIR" aor LA k amel "S" mor im k amo Y" 
atgi IE 
cual "WU mog im k enci Weu mow im k anel Yzy 
in k] 
A OWE test reatiress = [] 
integer encoder - LabelEncoder(); one hot encoder - 
OneHotEncoder() 
EOE gecene EA Cest SEG lists 
integer encoded - 
integer encoder.fit transform(list (sequence)) 
integer encoded - np.array(integer encoded).reshape(-1, 


= 


t transform(integer encoded) 
atures.append(one hot encoded.toarray()) 
112595 = ARO 562612 1122115 6251 reatures) 


tack(input test features)) 
tions-^ 


OE g aua. [a EO A aum 


if max(list(i)) 


one hot encoded - 


one hot encoder.fi 
LMoV ESSE £ 
input test fea 


predicted test probs 


model.predict(np.s 
microbial frac 


[Counter([np.argmax(j) 


predicted test probs 


(Gxptie oue || IE] e 
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EOE p ana. lL EOE 1 AM‏ ع كوه (Depp‏ دع عض 686 
predicted test probs‏ 
ME mees (laswa) >‏ 
GEO EIT‏ 
Counter([np.argmax(j) for j in [i for i in‏ 
predicted test probs‏ 
acf masse (tsi (CE)‏ 
xe EE 113) Zl,‏ 
(ROSAS IY EO 3| La [E tO t aum‏ شح 66026 
predicted test probs‏ 
hi) >‏ عات 1 E 11922 (db‏ 
Ê NY LSD‏ عه 
microbial fractions - [i/sum(microbial fractions) for i in‏ 
microbial fractions]‏ 
oral list.append(microbial fractions[0]);‏ 
gut list.append(microbial fractions[1])‏ 
Skin list.append(microbial fractions[2]);‏ 
vagina list.append(microbial fractions[3])‏ 
peh Dararrtems (i 9unsdle"s [i 4 V V = J EOC ip J im‏ = شه 
ESS Ue ligt; semple list) r‏ وده 
ا Orela @ral list, Out; gue listy‏ 
Skin list,‏ 
'Vagina': vagina list])‏ 
df.plot(x = 'Sample', kind = 'bar', stacked - True,‏ 
title = 'Microbial composition of HMP samples', figsize =‏ 
))20,15( 
plt.legend(loc = 'upper left', prop = ('size': 20})‏ 
Sample Oral Gut Skin ^ Vagina‏ 
Oral SRS011243 0.686508 0.135582 0.065146 0.112765‏ 0 
Oral SRS055495 0.535085 0.229923 0.147645 0.087347‏ 1 
Gut SRS017247 0.244642 0.630946 0.042865 0.081547‏ 2 
Gut SRS022713 0.256093 0.672017 0.024034 0.047856‏ 3 
Skin SRS017156 0.023256 0.079050 0.734708 0.162986‏ 4 
Skin SRS018369 0.014902 0.080032 0.817496 0.087570‏ 5 
Vagina SRS062752 0.116100 0.295430 0.052072 0.536397‏ 6 
Vagina SRS015071 20.129196 0.333672 0.028993 0.508138‏ 7 
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Microbial composition of HMP samples 


يمكننا أن نرى Ul‏ نحصل على تنبؤات جيدة إلى حد ما لكل عينة عشوائية من HMP‏ أي أن أول اثنين 
يشبهان العينات عن طريق الفم لأن الميكروبات الفموية (الشريط الأزرق) تشكل معظم المجتمع 
الميكروبي.في حين أن النوعين الأخيرين يشبهان عينات الأمعاء وما إلى ذلك. تشير التسميات Oral"‏ " 
و Gut"‏ " وما إلى ذلك لكل ise‏ الجزء السفلي من الشكل أعلاه إلى الأنسجة الحقيقية حيث تم 
جمع العيناتفي مشروع HMP‏ 


باختصار» قمنا بتدريب مصنف CNN‏ باستخدام تسلسل الجينوم المرجعي للميكروبات الوفيرةفي 
الأنسجة المختلفة من مشروع HMP‏ بعد ذلك. شرعناني تقييم النموذج على عدد قليل من عينات 
HMP‏ العشوائية. ربما يمكنك رؤية مشكلة محتملة هنا. من ناحية أخرى» لم نستخدم تسلسلات أولية 
من HMP ote‏ عند تدريب مصنف CNN‏ ويدلاً من ذلك استخدمنا الجينومات المرجعية 
للأجناس الأكثر HMP obh dips‏ من ناحية أخرى. Y‏ يزال هناك تسرب للمعلومات 
information leakage‏ لأننا ما زلنا نستخدم نفس المشروع (على الرغم من وجود أنواع مختلفة من 
البيانات) للتدريب والاختبار. لذلك قد يظل التقييم متحيرًا ويبدو جيدا لدرجة يصعب تصديقها. لإجراء 
تقييم أفضل» سنختار 8 عينات عشوائية عن طريق الفم. والأمعاء والجلد. والمهبل من المشاريع 
الميتاجينومية التي لا تتعلق ب HMP‏ 


o o o o o 

o N = o œ 

A s 
[-] 
3 
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Gut. SRS022713 


Gut SRS017247 


Oral SRS055495 


Oral SRS011243 


Skin SRSO1 se | 


sun sso D 


Vagina SRS062752 
Vagno.srsorsor MON 


Sample 


From collections import Counter 
import random; import numpy as np 
from Bio import SeqgIO; from tensorflow import keras 
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from sklearn.preprocessing import LabelEncoder, 


random.seed(123) 


tigate list = Oral”, Oral, Gur”, "Gub", WK, "Sob", 
'"Vagina', "Vagina'] 

ligt = ERE SOM Esas AP EER L G EASES,‏ ملام ده 
GEHAG pe l raste g‏ 
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EONS PE LEASE 


iL للق‎ LOOL RI Q01, Taste; 
144:91:200209-—1 1985/66000 0 RIL OOL TASTEN y 
'"SRR6900017 T.fastq', 
MSRRO89992/90 aste] 


omo 


= []; skin list = - 


[] 


ll? vagina list 


Dle gue list 


nt = 80; 
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CEO E 


EOE J im range (len (Sample ISE) J 


e | 


sample list[j] 


SegIO.parse(fastq file, "fastq"): 


>= nt: 


100000) 
ror J] EM Test SOC list] 


random.sample(test seq list, 
I3) ESE TO) Osme] 


tr(record.seq)) 
Esedqeibisiimappendisiimreceondaseq) 


test Sex list 
EASES TLS 
for record in 
if len(s 
test 


TeSt SOC, Lis 
test eee lis 


(eri dep on 


test seq lis [Js EO k in test SEO MISE abus 
ko Conme A X (0 anc jksceowunet 9^) > O EMO 
k Comnen h > 0 
and k.count( T') » 0 and len(list(k)) -- nt 
ewel VINA gage. aum k 
ane 117 mor AM k enc ^ Mol aUa Jk syl "M MOE 
im Je 
amd E mow هد‎ k aNd S MOE mw k arnel ERO 
in k 
Eumel "WW AOE 3us JE cuml "£V OE ia k cua! "dB MOE 
in k] 
integer encoder > LabelEncoder() 
one hot encoder - OneHotEncoder() 
otie cest reaties M 
Tor 56 1122535 lm tet sec Listi 
integer encoded - 
integer encoder.fit transform(list (sequence)) 
integer encoded - np.array(integer encoded).reshape(-1, 1) 
one hot encoded - 
one hot encoder.fit transform(integer encoded) 
input test features.append(one hot encoded.toarray()) 
input test features - np.stack(input test features) 
predilette Test PESOS = 
model.predict(np.stack(input test features)) 
if sum(Counter([np.argmax(j) for j in [i for i in 
predicted test probs ١ 
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E 
max(list(i))»cutoff]l).values())«500: 
cutoff - 0.6 
microbial fractions-^ 
[Counter([np.argmax(j) for j in [i for i in 
predicted test probs 
E E oa ()) 
GUE rosa ] 1 9) ON 
©6026 ضح‎ (ROSAS IY EO 3| La [E tO t aum 
predicted test probs 
B i 4 ةم‎ 
CUE OEE IN LE rz 
Counter([np.argmax(j) for j in [i for i in 
predicted test probs 
i m 34e mess ا‎ 2 
GE OE E 1 | ١ EIE E 
COMES (lup ezomec) EO 3, شلك‎ [2 EO 1 aum 
predicted test probs 
B 11 maees(dbusE()) » 
(cibieroxiear S 


microbial fractions = [i / sum(microbial fractions) for i in 
microbial fractions] 

S II o corne (CUEN)‏ معت MEKE 2 loea. ILI‏ عدم 

print(microbial fractions) 


oral list.append(microbial fractions [0]) 
gut list.append(microbial fractions[1]) 
Skin list.append (microbial fractions[2]) 
vagina list.append(microbial fractions[3]) 


import pandas as pd 
dE c» 54 585029 اولض سردت )) تسود‎ 3. i m N EOE i,j aba APCS list, 


[k replace (^o EASE 5, o replace (n 1^," 4) o replace 7 (QUILT, 7") o replace 
CE RD 
EOE k in sample Listli “Oral; oral MESE, Guts 
gne, dite" 
Sensi a مكلك‎ listy Vacinas vacina Ligt) 
df.plot(x = ‘Sample’, kind = ‘bar’, stacked = True, 
title-'Microbial composition of other than HMP metagenomic 
projects’, 
figsize - (20,15)) 
plt.legend(loc = "upper left’, prop = ('size': 20]) 
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Vagina 
0.054479 
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هنا نرى مرة أخرى أن تنبؤات التراكيب الميكروبيةني 8 عينات من غير HMP‏ تتفق إلى حد ما مع 
المجتمعات الميكروبية الحقيقية cela Yig e‏ والجلد. والمهبل التي تم أخذ العينات منها. أحسنت! 
يمكن لمصنف CININ‏ المدرب لدينا تقديم تقديرات ذات مغزى للتكوين الميكروبي لأي عينة معينة. 


الانستنتاج 

في هذه المقالةء تعلمنا أن الميتاجينومية Metagenomics‏ تمثل بيانات ضخمة مناسبة لتحليل التعلم 
J‏ والعميق. استخدمنا بيانات metagenomics‏ من مشروع Human Microbiome‏ 
(HMP)‏ وطورنا مصنغا 1D CNN‏ يمكنه التنبؤ بنجاح بالمساهمات من المجتمعات الميكروبية 
المختلفة (الفم أو الأمعاء أو الجلد أو المهبل) لعينة معينة بدءًا من التسلسلات الأوليةفي بيانات fastq‏ 
القياسية الشكل دون إجراء تقدير كمي للوفرة الميكروبية. ربما تقدم هذه الطريقة مزايا مقارنة باستدلال 
التركيب الميكروبي القياسي باستخدام .Source Tracker‏ 


المصدر 


https://towardsdatascience.com/deep-learning-on-human-microbiome- 
7854fba815fc 
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DNA Sequence للتنبق بالأنواع‎ DNA تصنيف تسلسل‎ (16 
Classification for Species Prediction 

يوجد الحمض النووي GDINA‏ خلايا كل كائن حي على الأرض. يمكن للعلماء دراسة الحمض النووي 
للكائنات الحية لفهم المزيد حول وظيفة الكائن الحي أو تحليل الحمض النووي لتحديد ما إذاكانوا قد 
وجدوا نوعًا جديدا. 


تصنيف الحمض النووي له العديد من الاستخدامات - من تحديد الأنواع species identification‏ 
إلى التمايز «differentiation‏ يمكن أن يوفر البحث رؤى حول كيفية اختلاف نوع واحد عن الآخر 
أو كيفية تطور نوع واحد. يمكن لتحليل التسلسل الجيني Genetic sequence analysis‏ تحديد 
الاختلافاتني الجينات» وعمليات الإدخالء والحذف داخل مجموعات فرعية من الحمض النوويء أو 
تحديد التغييرفي الأنماط الظاهرية من الأنواع إلى الأنواع. يمكن أن يخبرنا تحليل الاختلافاتفي 
التسلسلات من الأنواع المختلفة كثيرًا عن الاختلافات بين الأنواع» ولكن أيضًا عن مدى تشابه جميع 
الكائنات الحية. 


من خلال تحسين النمذجةني تحليل تسلسل الحمض النووي» يمكن للباحثين الجينوم تحقيق نتائج 
أكثر دقة وأسرع لتصنيف وتمييز الأنواع من عينات الحمض النووي. 

بالنسبة لهذا المشروع» سيكون تركيزي الأساسي على إظهار نماذج وطرق التصنيف. لاختيار مثالء 
قررت البحثفي تحليل تسلسل الحمض النووي» لأنني اعتقدت أنه سيكون مثيرًا للاهتمام والبيانات 
المتاحة للجمهور هائلة بشكل مذهل. 

الفرضية 

ماذا لو كان بإمكاني أخذ معلومات الحمض النووي من genome ejm‏ معين ومقارنتها بجينومات 
أخرى؟ هل ستكون هناك إشارةني الضوضاء؟ بالطبع. سيكون هناك وسيوجد. لكنني بدأت بفرضية العدم 
في السؤال: هل يمكن أن تكون هذه الجينومات غير مرتبطة أو مجرد تسلسلات عشوائية عند مقارنتها؟ 
بدلا من ذلك» آمل أن أجد نمط التشابه وآمل أن يتم قياس ذلكفي مقاييس نموذجي. أنا لست عالم 
أحياء لکن كعالم بيانات c data scientist‏ سأنظر إلى هذه المشكلة على أنها مشكلة ملاحظة خطأ loss‏ 
observing‏ — التشابه بين الجينومات وشرح التباين بينهما من خلال التنبؤ بفئة كل منهما. من وجهة 
نظر فنيةء سيستخدم هذا المشروع طرق التعلم الآلي لتحليل وتصنيف تسلسل الحمض النووي من 
الآنواع المختلفة. سيتم استخدام النموذج الناتج للتنبؤ بأنواع مجموعة معينة من الفئات Fs‏ على 
التسلسل الجيني genetic sequence‏ وحده. سيركز هذا المشروعفي المقام الأول على الاختلافات 
الرياضية بين التسلسلاتفي الكود الجيني «genetic code‏ بدلاً من أي تحليل جيني خاص للجينات 
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والأنماط الظاهرية بين الأنواع. أنا مهتم بمشكلة كيف يمكن أن يكون نوعان متشابهين أو مختلفين من 
نوع آخر. من وجهة نظر معممة وإحصائية. 

*DNA ga Lo 

الحمض النووي DNA‏ أو الحمض النووي الريبي منقوص الأكسجين «deoxyribonucleic acid‏ 
هو جزيء يحتوي على الشفرة الموروثة inherited code‏ التي تستخدمها الخلاياني الكائن الحي 
لتوليد البروتينات. يوجدفي نواة الخلايا. يتكون الحمض النووي من أربع قواعد: الأدينين adenine‏ أو 
«A‏ أو السيتوزين cytosine‏ أو € » أو الجوانين guanine‏ أو ء أو الثايمين thymine‏ أو T‏ كل 
خيط strand‏ من الحمض النووي يتكون من خيطين متماسكين Go‏ بواسطة بنية أساسها السكر على 
شكل حلزون مزدوج. كل قاعدة متصلة بالخيط المعاكس من خلال قاعدتها التكميلية: يتصل Gla A‏ 
ب T‏ ويتصل Gl C‏ ب G‏ ويتصل Gh G‏ ب (C‏ ويتصل T‏ دائمًا ب lias A‏ يعني أن كل خيط 
مكمل من الحمض النووي يشبه الانعكاس من جهة أخرى. عندما يتم تسلسل الحمض النوويفي سلسلة 
مكونة من القواعد الأربعةء فقد تم فهرسة سلسلة واحدة فقطفي البيانات التي أقرأهاء بدون مكملها. 


Deoxyribonucleic acid (DNA) 
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من خلال العمليات البيولوجية والجزيئية المعقدة. يكرر الحمض النووي أو يخلق Geni‏ من نفسه تُعرف 
باسم mRNA‏ خيوط mRNA‏ هي عبارة عن نسخ مجزأة قصيرة من الحمض النووي DNA‏ يمكن 
أن تتحد مع أجزاء أخرى من mRNA‏ وبالتالي تخلق مجموعات تكون رمرًا لإنشاء البروتينات. تخلق 
التركيبات المختلفة بروتينات مختلفة ثم تستخدم هذه البروتيناتفي جميع أنحاء الخلية والكائن الحي. 
يعمل الحمض النووي مثل كود الكمبيوتر لإنشاء البروتينات مثل البرنامج» وبالتالي لماذا يشار إليه على 
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أنه رمز جينى أو اللبنات الأساسية للحياة. يمكن تحديد مجموعات فرعية من خيوط DNA‏ لإنشاء 
بروتينات معينة وتعرف باسم الجينات genes‏ 


يتم لف الحمض النوويني كل خلية معًا بإحكام» وعلى الرغم من أنه يشغل مساحة ميكروسكوبيةء إلا 
أنه طويل جدًا. إذا قمت بتفكيك خيط كامل من الحمض النووي البشري بعناية» فسيكون طوله حوالي 
KT 1.8‏ ويحتوي على 3 مليارات زوج قاعدي» أي مجموعات من A۸‏ و ToGo‏ 


سمح التقدم التكنولوجي للعلماء بتسلسل البيانات المجهرية ضمن هامش خطأ صغير. يُعرف العدد 
الإجمالي للجيناتفي أحد الانواع بجينوم هذا النوع species’ genome‏ قام مشروع الجينوم البشري 
The Human Genome Project‏ الذي استمر من عام 1990 حتى اكتمالهفي عام 2003( بتعيين 
الجينوم البشري بأكمله عبر حوالي 20000 عينة غير متداخلة. اليوم» هناك العديد من جينومات الأنواع 
المختلفة المعينة والمتاحة للجمهور للتنزيل للبحث والتحليل. 

طرق هندسة خصائص تسلسل الحمض النووي الشائعة 

علم الجينوم Genomics‏ هو مجال واسع للدراسة يصنف ويحلل ويرسم خرائط جينومات الكائنات 
الحية. ضمن علم البيانات الجينومية «genomic data science‏ هناك العديد من الطرق التي يمكن 
من خلالها استخدام التعلم الآلي لتحليل بيانات التسلسل. 


إذا تم أخذ خيط من الحمض النووي كمدخلء فقد تظهر السلسلة كمجموعة من الأحرف A‏ و © و G‏ 
«Tg‏ مثل: ATGAAGAAGGTAACTGCAGAGGCTATTTCCTGGAAT'"‏ ..." 
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K-Mer Jgao 
minhash. أخرى شائعة للاستخدام. خاصة إذا كان طول التسلسل متغيراء تسمى‎ in 
هي طريقةفي علوم الكمبيوتر لمقارنة التشابه بين مجموعتين.في المعلوماتية الحيوية‎ 1 
لتحويل تسلسل إلى قاموس متكرر لسلاسل فرعية‎ minhashing استخدام‎ gSa bioinformatics 
الممكنة ل‎ k-mers يتم إنشاء الأعمدة لجميع‎ AS .k لعدد صحيح معين‎ k-mers تسمى‎ k بطول‎ 
من السلسلة. على سبيل‎ K ون و © و11'. ثم يتم ملء كل عمود تبديل لكل مجموعة فرعية بحجم‎ A 
عن طريق استخراج كل السلاسل الفرعية‎ k = المثال» يمكن تحويل سلسلة "663662" إلى 1-2215 ل2‎ 
سيكون لكل‎ "ca" و‎ "tc" و‎ "at" و‎ "ta"  "gtatca" ¬ "gt. ذات الطول 2 على طول السلسلة. من أعمدة‎ 

منها قيمة 1. 


يوجد أدناه رسم متحرك يوضح هذه الطريقة عندما يكون 3 = k‏ 


KmerTransformer(kz3) 


ACGTCGTACG 


البيانات 

لقد استخدمت خمسة جينومات مختلفة من قاعدة بيانات RefSeq‏ بيانات الحمض النووي للانسان 
Human‏ والشمبانزي Chimpanzee‏ والدولفين Dolphin‏ وشجرة البلوط Oak Tree‏ والفطر 
× كنت أرغبفي اختيار عدد قليل من الجينومات التي قد تكون متشابهة للغاية (بشري. 
شمبانزي» دولفين)؛ بالإضافة إلى زوجين سيكونان أقل قليلاً. 


نوبتبوك جوبيتر 
لقد قمت بترميز هذا المشروع Jupyter Notebook Python TP‏ والذي يمكن العثور عليه 
Bw‏ 


فيما يلي ملخص لعمليتي التكرارية: 
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ستيراد تسلسل , DNA‏ 
سأستخدم مكتبة BioPython‏ لتحليل ملفات FASTA‏ الموجودةني قاعدة بيانات RefSeq‏ 


يحتوي كل ملف على تسلسلات من جينوم الأنواع. لنلق نظرة على سجل واحد كمثال على البيانات 
التي يتم تحليلها. 


From Bio import SeqlIOfor seq record in 
SegIO.parse("data/GCF 000001405.40 GRCh38.p14 cds from genomic.fna", 
"fasta"): 4human fasta file 

print(seq record) 

break #break after printing one recordID: 
lcl|NC 000001.11 cds NP 001005484.2 1 
Name: lcl|NC 000001.11 cds NP 001005484.2 1 
Description: lcl|NC 000001.11 cds NP 001005484.2 1 [gene-OR4F5] 
[db xref-CCDS:CCDS30547.1,Ensembl:ENSP00000493376.2,GeneID:79501] 
[protein-olfactory receptor 4F5] [protein id-NP 001005484.2] 
[location-join(65565..65573,69037..70008)] [gbkey-CDS] 
Number of features: 0 
Seq( ATGAAGAAGGTAACTGCAGAGGCTATTTCCTGGAATGAATCAACGAGTGAAACG...TAG' ) 


متهم هذا المشروع التسلسل (Seq)‏ كبياناتفي النموذج» لكنني سأحدد دالة مساعدة ستجمع عددًا 
SU‏ من أعمدة البيانات» فقطفي حالة رغبتفي الرجوع إليها لاحقا. 


seq gene protein target 
0 | ATGAAGAAGGTAACTGCAGAGGCTATTTCCTGGAATGAATCAACQGA... OR4F5 olfactory receptor 4F5 human 
1 ATGCCTAGACACACACATCCTTACTCTGCGTGCATCCCTGGCCTGG... LOC112268260 uncharacterized protein LOC112268260 human 
2  ATGGATGGAGAGAATCACTCAGTGGTATCTGAGTTTTTGTTTCTGG... OR4F29 olfactory receptor 4F3/4F16/4F29 human 


3 ATGCGTAGACACACACATCCTTACTCTGCGCGCATCCCTGGCCTGG... LOC105378947 proline-rich extensin-like protein EPR1 isofor.. human 
4 | ATGGATGGAGAGAATCACTCAGTGGTATCTGAGTTTTTGTTTCTGG. 084816 olfactory receptor 4F3/4F16/4F29 isoform X1 human 


دعونا نلقي نظرة على تسلسل الحمض ا الإجمالي. 


Human df.loc[0,'seq']' ATGAAGAAGGTAACTGCAGAGGCTATTTCCTGGAATGAATCAACGAGT 
GAAACGAATAACTCTATGGTGACTGAATTCATTTTTCTGGGTCTCTCTGATTCTCAGGAACTCCAGACCT 
TOCTATTTANETTETTTT TTOTAT TC TATEEACEAATEETET TI ECAAACETTETTATTETERTARCAGT 
687902116101826 156161621611152: NE CCANE TAGCTINE CTE SERE SCARCE NETERE TEAMING ARETE TER 
CTGTCTTCAGTCACAGCCCCCAAGATGATTACTGACTTTTTCAGCCAGCGCAAAGTCATCTCTTTCAAGG 
CE TECT ETTAN TAT TONET TEAC TIETE CTIE UN DUC ICON RUNE CE 
CTTTGACAGATATATAGCAATATGCAAGCCCCTACACTACACTACAATTATGTGTGGCAACGCATGTGTC 
GGCATTATGGCTGTCACATGGGGAATTGGCTTTCTCCATTCGGTGAGCCAGTTGGCGTTTGCCGTGCACT 
TACTCTTCTGTGGTCCCAATGAGGTCGATAGTTTTTATTGTGACCTTCCTAGGGTAATCAAACTTGCCTG 
TACAGATACCTACAGGCTAGATATTATGGTCATTGCTAACAGTGGTGTGCTCACTGTGTGTTCTTTTGTT 
CTTCTAATCATCTCATACACTATCATCCTAATGACCATCCAGCATCGCCCTTTAGATAAGTCGTCCAAAG 
CTC TETOR TERATE TOCAT TAEAE TNT CTET ITTEENI ETTET TANE 
CTGGCCATTCCCCATCAAGTCATTAGATAAATTCCTTGCTGTATTTTATTCTGTGATCACCCCTCTCTTG 
AACCCAATTATATACACACTGAGGAACAAAGACATGAAGACGGCAATAAGACAGCTGAGAAAATGGGATG 
CACATTCTAGTGTAAAGTTTTAG' 
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أريد إنشاء جميع الميزاتفي نموذجي من تسلسلات كهذه. لقد كتبت فئة TransformerMixin‏ 
مخصصة هنا لتحويل العمود "560" إلى قواميس تكرار k-mer‏ التي تمت مناقشتها أعلاه ثم تحويلها 
إلى إطار بيانات Pandas‏ . تسمى هذه الدالة KmerTransformer‏ ويمكن العثور عليها على github‏ 
تحليل البيانات الانستكشافية 

قبل أن أقوم بأي تحليلء سأضيف جميع الأنواع من بيانات تسلسل الحمض النووي التي جمعتهاني إطار 


بيا نا ت وا احد. 
seq gene protein target‏ 
ATGAAGAAGGTAACTGCAGAGGCTATTTCCTGGAATGAATCAACQGA... 0845 olfactory receptor 4۴5 human‏ | 0 
 ATGCCTAGACACACACATCCTTACTCTGCGTGCATCCCTGGCCTGG... LOC112268260 uncharacterized protein LOC112268260 human‏ 1 
ATGGATGGAGAGAATCACTCAGTGGTATCTGAGTTTTTGTTTCTGG... OR4F29 olfactory receptor 4F3/4F16/4F29 human‏ 


2 
3 ATGCGTAGACACACACATCCTTACTCTGCGCGCATCCCTGGCCTGG... ١06105378947 proline-rich extensin-like protein EPR1 isofor.. human 
4 | ATGGATGGAGAGAATCACTCAGTGGTATCTGAGTTTTTGTTTCTGG... OR4F16 olfactory receptor 4F3/4F16/4F29 isoform X1 human 


أول شيء نريد رؤيته هو مقاييس تسلسل الحمض النووي نفسه. دعونا نلقي نظرة على طول التسلسل» 
target chimp dolphin human mushroom oak‏ 
count 20000.000000 20000.000000 20000.000000 13330.000000 20000.000000‏ 


mean 2517.103150 2053.371500 2223.870600 1459.588297 1516.557900 


std 5673.450049 1784.546128 3788.036344 1114.727843 1368.491338 
min 108.000000 108.000000 37.000000 153.000000 93.000000 
25% 996.000000 969.000000 939.000000 729.000000 753.000000 
50% 1612.500000 1554.000000 1515.000000 1167.000000 1209.000000 


75% 2763.000000 2568.000000 2592.000000 1806.000000 1875.000000 


max 106962.000000 28215.000000 107976.000000 13854.000000 23319.000000‏ 
يمكننا الآن تحديد أن متوسط طول كل تسلسل بين الأهداف هو نفسه نسبيًاء بصرف النظر عن البيانات 
الجينومية لشجرة البلوط والفطر. 
باستخدام دالة KmerTransformer‏ المخصصة التي قمت بإنشائهاء يمكنني تحويل البيانات وإجراء 
بعض التحليلات المرئية الأساسية. سأبدأ ب 3 - k‏ لذلك ليس لدي الكثير من الأعمدة ويمكننى رؤية 
البيانات معًا بسهولة. l‏ 


دعنا نفحص بسرعة أن البيانات يتم ملؤهافي الأعمدة بشكل صحيح. 
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AAA AAC AAG AAT ACA ACC ACG ACT AGA AGC .. TCT TGA TGC TGG TGT TTA TTC TTG TIT target 
0 10 13 13 16 19 10 4 21 15 11 .. 34 23 13 21 29 16 29 20 35 human 


1 9 20 14 4 30 18 14 13 4 19 25 10 45 4 12 5 7 9 9 human 
2 7 6 2 10 317 W 3 22 15 14.. 31 14 10 30 33 11 33 17 33 human 
3 8 30 15 4 4 34 13 15 64 30 52 9 84 70 14 4 10 6 7 human 
4 7 5 12 10 17 10 3 22 15 14... 31 14 10 30 33 11 33 17 33 human 


5 rows x 65 columns 


وإلقاء نظرة على الارتباط بين الأعمدة .. 


Correlation between trimers 


w 


توضح خريطة الحرارة heatmap‏ هذه أن هناك ارتباطًا كبيرًا بين معظم ميزاتناء وهذا ليس Cre‏ لأن 
k-mer JS‏ له سلاسل ej‏ مشتركة مع أعمدة k-mer‏ الأخرى. سيؤثر هذا على نموذجناء وقد 
أتمكن من إيجاد طريقة لاستخراج الميزات التي لا ترتبط أو تستخدم المصنفات التي يمكنها التعامل 
مع مستوى عال من العلاقة الخطية. 


متوسط القيم لكل مقلم مجمعة حسب الأنواع 
AU‏ دعنا نلقي نظرة على القيم المتوسطة لكل مجموعة عمود من خلال الحمض النووي لخمسة أنواع 
التى أضفتها إلى إطار البيانات هذا كمثال. 


ARA AAC AAG AAT ممعم‎ ACC ACG ACT AGA AGC TCG  TCT TGA 766 TG me mo m 
mean mean mean mean mean mean mean mean mesan mean  . mean mean mean mean  mesn 


TOT m 
mean mean mean mean mean 


human 60229400 33.362550 58.012250 34.190950 42902200 35.12250 12653950 31.898350 61.794450 46252500 .. 11.310700 3577230 47.596600 40.074900 51.249600 33.977450 21.301150 35.017850 33.329400 3342700 
chimp 67.194300 37.500850 65.028200 37.705900 48.163300 40.80795 14.604500 35.642400 69.796600 52699600 .. 12945650 3950585 53720300 45.264000 58.448150 38660100 23.541550 38.992100 37.130900 36.00340 
dolphin 47.861000 29.020600 49433050 26.596250 36.743850 33.69755 15.967300 27.132200 53.910250 44.904550 .. 13.051750 31.85410 40071600 37.548450 47.272250 29.036800 17242750 31.348700 27.255200 28.29850 
oak 46520700 23.288300 41.873250 35.526600 26295850 16.25395 7,664500 22.174450 30.199150 21407250 .. 9253550 28.96365 37.352750 24595600 35381750 26230500 22760400 30.478900 40989250 37.80160 


mushroom 31.000975 24.464068 29259715 2308872 25872618 23.17802 21.090998 19.591673 27.278295 22428207 .. 24247187 2601928 2288597! 24272693 28.102626 10.113878 13.412528 28.245236 26.103601 8 


5 rows * 64 columns 


Scaled Mean Values of Each Trimer Grouped by Genome 


Human Genome 


Chimp Genome Dolphin Genome Oak Genome Mushroom Genome 
I. 1 5 ES 


0.2 


في هذا الرسم البياني» نتخيل تلك القيم المتوسطة لكل عمود مرتبة على شكل شبكة ثنائية الأبعاد. كل 
مخطط فرعي هو أحد الأنواع الأربعة» والآن يمكننا بصريًا مقارنة وسائل قيمهم معًا. يبدو أن بعض 
الأنماط تظهر بالفعل. بالنسبة لجينومات الثدييات mammalian genomes‏ (الإنسان والشمبانزي 
والدلفين)ء هناك الكثير من المناطق المتشابهة بصريًا. حتى أن بعض أجزاء جينوم البلوط مرتبطة 
بالأجزاء الثلاثة الأخرى» ولكن بالنسبة للجزء الأكبر. من السهل التمييز بالفعل أنه يمكن أن يكون 


Cosine Similarity between Genomes (Mean Values) 
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لقد رأينا بصريًا التشابه بين ميزاتنافي الفئات المختلفةء ولكن يمكنني أيضًا حساب تشابه جيب التمام 
cosine similarity‏ بين القيم المتوسطة لكل X3‏ لاحظ أن الجزء السفلي من هذا المقياس لا يزال 
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يمثل قيمة عالية للتشابه )< 90/). يبدو أن جميع فثاتنا لديها تشابه كبيرني جيب التمام» ولكن بالطبع» 
يرى الحمض النووي للإنسان والشمبانزي أعلى مستوى من التشابه. 


دعنا الآن نلقي نظرة على تصور التباين variance‏ ميزات كل جينوم. 


Scaled Variance of Each Trimer Column Grouped by Genome 


Human Genome Chimp Genome Dolphin Genome Oak Genome Mushroom Genome 
AAC AC AND AM AAT AM ANC AM AAT 
ACA AC ACG ACT ACA AC AG ACT ACA ACC ACG ACT 
IL AGG AGT AGC AGG AGT AGA ACC AGG AGT 200 
ATA ATC ATG AT ATA ATC ATG AT ATA AIC ATG ATT 
عت من‎ ag ar CM عت ا‎ ag تت‎ CA OC مت‎ CAT 
m MB اماس ع‎ Ceca 
cca cce ce ccr cca cce cec ccr ca cec coe cer E. 
ca ce GG cr CA crt لنت‎ cm ca CIC CG cm 
cnc AT GAC GAG GAT GM GAC CAG CAT 
ca eel ce cct CA coe Gt CCT GCA cce do ccr 100 
[^u GGC GGG GGT GGA GGC 666 GGT GGA 66C GGG GGT 
cm GIC cG cm cm ce GIG GT cm GC cg cm 
TAA TAC TAG TAT TA TC TAG TAT TAA TAC TAG TAT 50 
TA صم اع‎ Te TA rc TG XT TA TC TG Ter 
TA toc Tee | vor TA Toc To Ter Toa Toc TG Tor 
TA TC TG mr TA m TG m m TC TG m 


بناءَ على هذا التصورء يمكننا أن نرى أن بعض الجينومات لها تباين أعلى من غيرها. سيكون من المثير 
للاهتمام معرفة ما إذا كان لهذا تأثير على النماذج متعددة الطبقات أو يمكن تفسيره أثناء التصنيف 
الثنائى لفئتين لهما مستويات مختلفة من التباين. 


المصنف الثنائي للحمض النووي البشري مقابل الشمبانزي 

يمكننا أن نفترض أن الحمض النووي للإنسان والشمبانزي يشبه إلى حد كبير الحمض النووي للإنسان 
والبلوط من اختبارات التشابه الأولية لتحليل البيانات الاستكشافية EDA‏ وجيب التمام. سأحاول 
تشغيل مصنف الانحدار اللوجستي logistic regression classifier‏ على الحمض النووي للإنسان 
والشمبانزي فقط. 


Human DNA vs Chimpanzee DNA Logisitic Regression Confusion Matrix 
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الانحدار اللوجيستي غير المعدل untuned Logistic Regression‏ ليس »3 على الإطلاق. درجة 
الدقة بنسبة 53./ هي بالكاد أكثر من مجرد فرصة عشوائية OM‏ الفئتينفي مجموعة الاختبار متوازنة. قد 
يكون هذا بسبب العلاقة الخطية العالية لميزاتنا. نظرًا لأنني ملتزم بمجموعة الميزات هذه. على الأقل 
في الوقت الحالي. سأجرب مصنفات مختلفة قد تعمل بشكل أفضل مع علاقة خطية عالية. 


نظرًا لأن الانحدار اللوجستي لا da‏ مصنف جيد LILLJ‏ فسوف أقوم بتنفيذ بحث شبكي grid‏ 
search‏ للعديد من المصنفات المختلفة لمعرفة ما إذا كان بإمكاننا العثور على واحد يناسب البيانات 
بشكل أفضل. لا يزال النموذج يستخدم نفس أدوات اقتطاع بيانات data trimers‏ التدريب والاختبار 
(k - 3)‏ من .KmerTransformer‏ سأفترض أنه مع k‏ أعلىء سنرى درجة دقة Jai‏ لكن الأمر 
سيستغرق Cal‏ وقتًا طول لتناسب كل نموذج. B]‏ وجد بحث الشبكة هذا مصنفات جيدة» فيمكنني 
زيادة في بحث شبكة آخر» ولكن على مجموعة أصغر من المعلمات. Ii‏ دعونا نجرب المصنفات 
غير المعدلة. 


Accuracy of Different Classifiers in GridSearchCV 


البحث الشبكى على المصنفات المختلفة 
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mein CAMS model = Pipeline em 
) "151812 _ هه مع‎ 12121327 , Ker 12213173121812 (<, 
verbose-False)), 
(*scaler', StandardScaler()), 
('"classifier', ExtraTreesClassifier()) 


1) 


human chimp model.fit(X train, y train) 
y preds - human chimp model.predict(X test) 


print(classification report(labeler.inverse transform(y test), 


labeler.inverse transform(y preds)))precision Tecell si-o 
support 
chimp 0.87 0.88 0.88 4979 
human 0.88 0.87 0.88 5021 
accuracy 0.88 10000 
macro avg 0.88 0.88 0.88 10000 
weighted avg 0.88 0.88 0.88 10000 


Human DNA vs Chimpanzee DNA ExtraTrees Confusion Matrix 
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Human DNA vs Chimpanzee DNA ROC Curve 
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هذه ليست نتيجة سيئة مقارنة بنموذجنا الأساسي البالغ 53/. الدقةفي هذا النموذج هي 88/ لتصنيف 
الحمض النووي للإنسان والشمبانزي. تبلغ درجة ,947 AUC‏ وتحتضن الزاوية اليسرى العلوية من 
الرسم البياني. هل يمكننا تحسين هذه النتيجة بضبط المعلمة الفائقة Tfhyperparameter tuning‏ 
بالتأكيد. ولكن bes‏ نحاول إدخال خوارزمية جديدة للمعالجة المسبقةفي القسم التالي لمعرفة ما إذاكان 
بإمكاننا تحسين خوارزمية تحويل الميزات Al‏ 

K-Group K-mer محول‎ 

هنا سوف أقوم بإنشاء محول transformer‏ مخصص آخر للمعالجة المسبقة للبيانات. على غرار محول 
.KmerTransformer‏ سيقوم هذا المحول بإنشاء قواميس تردد لکل صف من البيانات. على عكس 
KmerTransformer‏ . فإنه سيجمع جميع أعداد ‏ و C‏ و 6 و Nas T‏ من تسلسلها الفريد. 

بعبارة أخرى. ]15 كان لدينا تسلسل مثل "AAGTCGAGT'"‏ سيكون لدينا 3 مجموعات A‏ و1 C‏ 
و3 © و2 1. لذلك سوف يملا التسلسل عمودًا باسم: ۸2٥016312"‏ ". وبالمثل» فإن تسلسا مثل 
"0108850106" يملأ نفس العمود أيضًا. هذا يعني أننا سننشئ عددًا أقل من الأعمدة لنفس .k‏ 
وبالتالي» سنزيد عا بشكل كبير عندما نستدعي المحول. 


KGroupKmerTransformer(kz3) 


ACGTCGTACG 


يمكن أيضًا العثور على فئة المحولات هذه على صفحة GitHub‏ الخاصة بي. 


باستخدام فئة K group K MerTransformer‏ المخصصة. دعنا نجربها على البيانات باستخدام k‏ 
2 = و 36 = .k‏ 
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KGroups Confusion Matrix (k712) KGroups Confusion Matrix (k736) 
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KGroups ROC-AUC (k=12) 
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KGroups ROC-AUC (k-36) 
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نحصل الآن على 3i»‏ 90 عند مقارنة الحمض النووي للإنسان والشمبانزي و 36 = k‏ بعد تقليم 
pruning‏ الأعمدة التي لم يتم ملؤها مطلقاء استخدمنا 7386 عمودًا إجماليًا. تبلغ درجة AUC‏ لدينا 
الآن 96/ وتبدو أفضل مما كانت عليهفي نموذج محول k-mer‏ السابق. 


N 
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حتى (M‏ جيد جد — لنجرب هذا النموذج على بيانات الفئات المتعددة -Multi- Class data‏ 


cJU.oJI fa) LI . ni . LI 
Kk = 36 على بيانات متعددة الفتات مع‎ KgroupKMerTransformer الآن سنطبق‎ 


Multiclass Performance with Kgroup Transformer (k-36) 
precision recall fl-score support 


Carmo (0. YL 0-63 Oael 5050 
dolphin 0.90 0,07 0,66 5034 
human 0.91 0.87 0.89 4964 
mushroom 10)5 75 O 8A4 095 
oak 0.86 0.91 0.89 5060 


AOE EAE 10.077 23333 
Mele EO avo 0-66 (05.87 0-66 23933 
weighted avg 0.87 0.87 0.87 23333 


يبدو أن نموذج Kgroup Multiclass‏ أقل »3 من النموذج الثنائي. خاصةفي فئات معينة. على سبيل 
المثال» درجة ۴1 للفطر منخفضة بشكل خاص مقارنة بالآخرين. te‏ نشغل نموذج 
KmerTransformer‏ الأصلى على بيانات متعدد الفتات ونقارن النتائج. 


Multiclass Performance with Kmer Transformer (k-6) 
precision recall fl-score support 


Garwo O OM O S2 Oaea 5O50 
leuljelemt. 095 O1 (9.012 5O34 
human 0.87 0.86 0.86 4964 
1255101 09b (9594 (9495. 3225 
oak 0.89 0.95 0.92 5060 


ACCU AC 0-89 23333 
ACES e 0-66 (9.51900) 090 23333 
weighted avg 0.89 0.89 0.89 23333 


K-Groups Transformer (k736) - Accuracy 87% 


K-Mer Transformer (k-6) - Accuracy 89% 
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يمكننا أن نرىني هذه المقارنة لمصفوفات الارتباك أن نموذج KmerTransformer‏ المعالج مسقا 
أفضل بكثيرني تصنيف بعض أجزاء البيانات التي يواجهها نموذج Kgroup‏ وقتا أصعب. بالنسبة 
للنموذج النهائي. سنجمع بين محولي المعالجة المسبقة السابقين اللذين أنشأناهماني نموذج واحد. 


Kgroup + Kmer- jail النموذج‎ 

بعد البحث الشبكي لتحديد أفضل k‏ لكل من KgroupKMerTransformer‏ و 
 .KmerTransformer‏ بالإضافة إلى البحث عن المعلمات الفائقة عن أفضل 
(ExtraTreesClassifier‏ سننشئ النهائي ونرى النتائج. 


النموذج النهائى للمعلمات الفائقة: 


e KgroupTransformer: k-24 
e Kmerlransformer: k-6 


e  ExtralreesClassifier: n estimators-300 


باستخدام Feature Union‏ ن sklearn‏ داخل خط ewl‏ یمکننا أن نجمع الأعمدة المحولة من 
Kmerlransformer 5 — Kgrouplransformer‏ قبل تشغيلها ‏ من خلال 


. Extra TreesClassifier 


trans_union: FeatureUnion 


pi p2 


KGroupKMerTransformer | |v KMerTransformer 


7 KGroupColumnPruner | 
Ni ا‎ out —on j 
» StandardScaler | 

M ExtraTreesClassifier 


ExtraTreesClassifier(n estimators-300, random state-42) | 


1 


precision recall f1-score support 

chimp 0.89 0.82 0.86 5050 
dolphin 9.93 0.92 0.93 5034 
human 0.89 0.87 0.88 4964 
mushroom 0.90 0.96 0.92 3225 
oak 0.89 9.95 0.92 5060 
accuracy 0.90 23333 
macro avg 0.90 0.90 0.90 23333 


weighted avg 0.90 0.90 0.90 23333 
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ROC Curves for ExtraTreesClassifier 
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النتائج 

حقق نموذجي النهائي دقة 90/ على بيانات الاختبار لتصنيف التسلسلات بين 5 جينومات من الحمض 
النووي. على الرغم من وجود مجال للتحسينفي النموذج» بالإضافة إلى تجربة طرق التصنيف الأخرى 
(مثل الشبكات العصبية والتعلم العميق)ء يمكنني رفض فرضيتي العدميةء ويمكننا افتراض وجود العديد 
من أنماط التشابه بين فئات الجينوم بيانات. علاوة على à‏ يمكننا تمييز الأنماط والتباين وتصنيف 
الأنواع من تسلسلات الحمض النووي الفردية بدقة عالية. 

إذا كنت enge‏ بمعرفة المزيد عن الكود الخاص بي» فيمكنك التحقق من نوتبوك جوبيتر الكامل على 
صفحة GitHub‏ الخاصة بي. 


المصدر: 


https://medium.com/ Qrollingstorms/dna-sequence-classification-for-species- 


prediction-df202bcb621f 


261 17( تحديد تسلسل , Bona Fide DNA‏ مع التعلم العميق 


Identification of الحقيقي مع التعلم العميق‎ DNA تحديد تسلسل‎ (17 
Bona Fide DNA Sequences with Deep Learning 
https://github.com/]dduryea/SegID :Github مشروع‎ 


في الفصل الدراسي الماضي. درست دورة تعلم الآلة الإحصائية statistical machine learning‏ 
جامعة رايس -Rice University‏ ركزنا بشكل أساسي على مجموعات بيانات الصور. بمافي ذلك 
015812-0 الشهير. كانت دورة adl‏ لكننا لم نتعلم الكثير حول كيفية التعامل مع النص text‏ أو 
البيانات المتسلسلة (3.sequential data‏ نهاية هذا الأسبوع قررت اختبار المياه. أنا منفتح دائمًا على 
الاقتراحات. لذا إذا كان لديك أي تعليقات أو أسئلة أو مخاوف. فيرجى إبلاغي بذلك! لقد بدأت للتو 
في التلاعب بهذا الموضوع وأحاول أن أتعلم بقدر ما أستطيع. 


بصفتي متدريّافي المعلوماتية الحيوية bioinformatics‏ بدوام جزئيفي كلية بايلور Baylor‏ للطب (على 
الجانب الآخر من الشارع من رايس يو)ء أعمل مع البيانات الجينية والجينية الوراثية طوال الوقت. 
الجينوم البشري genome‏ عبارة عن سلسلة من 3 مليارات زوج أساسي (TGC A)‏ 
ويوفر مجموعة كبيرة من البيانات للبدء. هناك العديد من الأسئلة التي يمكننا طرحها حول الجينوم؛ 
لكنني أردت أن أبدأ بسؤال بسيط: هل يمكن لنموذج التعلم العميق أن يميز الفرق بين التسلسلات 
الحقيقية real sequences‏ للحمض النووي البشري والتسلسلات المزيفة المتولدة fake,‏ 


"generated sequences 


الخطوة 1: جمع البيانات 

في البداية كنت بحاجة لجمع بعض بيانات الحمض النووي DNA‏ الجينوم البشري متاح للجمهور 
ويسهل الوصول إليه عبر الإنترنت. يمكن الحصول على تسلسل الحمض النووي الخام من جامعة 
كاليفورنيا سانتا كروز (/https://genome.ucsc.edu) California Santa Cruz‏ بالأمر التالي: 


curl http://togows.org/api/ucsc/hg38/chr19:400,000-40,000,500.fasta > bigseq.txt 


سيؤدي هذا إلى تنزيل بيانات تسلسل الحمض النووي من الجينوم البشري (الإصدار «hg38‏ والذي 
يستخدم على نطاق واسعفي التعليق التوضيحي (annotation‏ على الكروموسوم 9 من مؤشر الزوج 
الأساسي 0 إِلى 40000500. 


بشكل آساسي» سيؤدي هذا إلى تخزين تسلسل هائل من و © و © و GT‏ الملف المسمى 
.bigseq.txt‏ سيبدو مثل هذا (لكن آلاف الأسطر أطول): 
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N 
9 
N 


الخطوة 2: المعالجة المسبقة للبيانات 


TTGTGGACCGAGATCCAGGTCTCAGTGTAGACCAAGGAACAGAGGCAGCCCCTACTCGGG 
CTCCCAGGCTCCAGCCAGGCCTGCTAGGTGGGCGGCCTCTGCCCGTGTGATGGAAGGAAG 
CCAGGCTCAGAGATGGGGTGACTTGTCCCACGTCCTGGAGGGTCTCACAGCTCCACCACG 
GCCAGGAGACTTCAGTCCAGGGGGCCTCCATCCCCAGCGACCTTCACCTGACCCCCAGGG 
GACCCCAGCCAACAAGACCCGGCCTGCAGCTCCGGAACGGGGGAGGGCTGCTCTCCACCG 
CCCCTGTGCGGCCGCCCGGGAAAGTGCAGGCGGGCCGGGCGCGGTGGCTCACGCCTGTGA 
TCTCAGCACTTTGGGAGGCCGAGGTGGGCGGATCACCTGAGGTCGGGAGTTCGAGGCCAG 
CCTGCCCAACATGGAGAAACCCTGTCTCTACTAAAGATACAAAATTAGCCAGGCGTGGTG 
ACGCATGCCTGTAATCCCAGCTACTGGAGTGGCTGAGGCAGGAGAATCGCTTGAGCCCGG 
GAGACAGAGGTTGCGGTGAGCTGAGATCGCACCATTGCACTCCAGCCTGGGCAACAAGAG 
CGAAACTCAGAAAAAAAAGAAAAGAAAGTGCAGGGGACCCGCCGTCGGGGTGGGGGCGGC 
GCTGCCCAGCCTCTGTCCCACTTCCATGCACTTGACCTCGACCCTCCGGCCTCCGTCTGC 
GATCTTCCCGTGCCTGAATATGAGGCTTGGAACAGACCCAGACCTTCCTGCCTGCCCGTC 
CTGAGTGGCCCCGGGACCCCGCCCCATCTTTGGCCCCCAGCCCCTGCCTCTCTGCCGCCT 


كان هذا هو الجزء الجديد بالنسبة لي. قد يكون العمل مع البيانات النصية sl‏ صعبًاء لكن لحسن الحظ 
لدينا فقط 4 رموز (1 لكل زوج أساسي (base pair‏ للعمل معها. نظرًا OY‏ نماذج التعلم العميق لا 
يمكنها العمل مع هذا النوع من البيانات بشكل مباشرء فقد احتجت أولاً إلى تحويلها إلى بيانات رقمية. 
لقد قمت بتمثيل Clo A‏ مع 2: © مع 3: و'1' مع 4. لقد استخلصت 3500 تسلسل فرعي طول 
كل منها 10000 زوج أساسيء وقمت بتحويل البيانات إلى تنسيق رقمي» وأعطيت كل نقطة من نقاط 
البيانات هذه التسمية 1 لقد قمت بشكل عشوائي بإنشاء 3500 تسلسل بطول 10000 وأعطيت هذه 
التسمية 0. المزيد عن هذافي .Github repo (https://github.com/Jdduryea/SegID)‏ قمت 
بتقسيم البيانات إلى بيانات التدريب والتحقق من الصحة (تقسيم 20/80( باستخدام -SKLearn‏ 


الخطوة 3: استكشاف البيانات والتصور 


استكشاف البيانات الخاصة بك أمر ضروري دائمًا. ألقيت نظرة على توزيع الأزواج الأساسيةفي البيانات 
الحقيقية والمزيفة. 


1e7 Real Sequences 


Frequency 
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Fake Sequences 


c G T 


يبدو أن كلا مجموعتي البيانات لهما توزيع منتظم C5 uniform distribution‏ للأزو اج الأساسية 
-base pairs‏ سيواجه النموذج وقتا صعبّاني التمييز بين البيانات الحقيقية والمزيفة بمجرد النظر إلى 
الأعداد النسبية لكل زوج أساسيفي تسلسل معين. 

الخطوة 4: إنشاء النموذج 

حاولت إنشاء نموذج ذاكرة طويلة قصيرة المدى dong short-term memory (LSTM)‏ لکن 
هذا استغرق وقتا طويلاً للتدريب على الكمبيوتر المحمول الخاص بي. لقد جربت أيضًا الشبكة امامية 
التغذية الاساسية «vanilla feed forward network‏ لكن الأداء كان سيئًا. کان الانحدار اللوجستي 
logistic regression‏ البسيطفي البيانات أسوأ. كدت أتخلى عن المشروع» معتقدة أنه ربما لم تكن 
المشكلة قابلة للحل» لكنني قررت أن أعطيها فرصة أخيرة. 


Frequency 
o 
2 


e 
N 


0.0 


A 


اخترت نموذج تلافيفي احادي البعد convolutional model‏ 1-0 مبني باستخدام .Keras‏ الفكرة 
الأساسية للالتفاف احادي البعد 1-4 هي أن الطبقة الأولى من النموذج تنظر إلى جزء صغير من الحمض 
النووي وترسل إشارة اعتمادًا على ما رآه. ثم ينتقل إلى الجزء الصغير التالي ويفعل الشيء نفسه. تستمر 
هذه العملية حتى "انزلقت slid‏ " الطبقة الأولى أو "ملتفة "convolved‏ فوق تسلسل الإدخال. تلتقط 
الطبقة الثانية الإشارة من الطبقة الأولى وتنفذ روتيئًا مشابهًاء ولكن هذه المرة يكون تمثيل البيانات FÍ‏ 
تجريداً نظرًا لأنه يلتف عبر هذه الإشارات الجديدة. بعد 303« تحدد طبقة التجميع pooling layer‏ 
المناطق ذات أقوى إشارات الإخراج وترسل تلك الإشارات إلى الأمام. 
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Layer (type) ^ Output Shape Param 4 - 
convid 129 (ConviD) (None, 9999, 16) 4 
convid 130 (ConvlD) (None, 9998, 16) 528 

max poolingld 31 (MaxPooling (None, 3332, 16) 0 

convid 131 (ConvlD) (None, 3330, 16) 784 

global average poolingld 26 (None, 16) 0 

dense 164 (Dense) (None, 100) 1700 
dropout 94 (Dropout) (None, 100) 0 

dense 165 (Dense) (None, 1) 101 


Total params: 3,161 
Trainable params: 3,161 
Non-trainable params: 0 


None 


لقد قمت بتكديس بضع طبقات تلافيفية convolutional layers‏ بأحجام فلتر صغيرة» وبعض 
التجميعات iib, pooling‏ كثيفة مخفية hidden dense layer‏ لبعض التثليج على الكعكة. لقد 
استخدمت إنتروبيا متقاطعة ثنائية لدالة الخطأ «ADAM (5 «binary cross entropy‏ 
وتنشيطات ReLU‏ 


أداء النموذج 

بعد قليل من التدريب على 17 المتواضع لجهاز الكمبيوتر المحمول» كنت سعيدا جد بالنتائج. كان ell‏ 
النموذج جيداني بيانات التدريب والتحقق من الصحة! ما يقرب من 100// دقة! لقد حملت مجموعة 
بيانات الاختبار النهائية خلال مرحلة التدريب / التحقق من الصحة واختبرت النموذج على مجموعة 
البيانات النهائية هذه. حيث حققت دقة 99.714/. 


يمكننا أن نرى مدى جودة أداء النموذج أثناء تدريبه بمرور الوقت. يكون منحنى بيانات التدريب ساسا 
da‏ بينما يأخذ منحنى بيانات التحقق من الصحة بعض التقلبات الحادةء لكن كلاهما يتقارب مع دقة 
مثالية تقريبًا. لم تكن هناك فترات epochs‏ قليلة أخرى لتؤذي نظرًا لأن دقة التحقق كانت لا تزال تتزايد 
عند بلوغ الحد الأقصى للفترة. 
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Model Performance 


10] — train 
—— val 


Accuracy 
eo 
oo 


e 
5 


e 
o 
1 


0.54 


od 


T T T T 
2 4 6 8 
Epochs 


يعرض النموذج مقايضة جيدة بين الإيجابيات الحقيقية true positives‏ والإيجابيات الزائفة false‏ 
.positives‏ أي أنه لا يبدو أنه يفضل فئة على الأخرى. 


Receiver Operating Characteristic 


true_positive_rate 
o o o o p 
N A o œ o 
f 1 1 


o 
o 


T T T T T T 
0.0 0.2 0.4 0.6 0.8 1.0 
false positive rate 


الاستنتاجات 

ركز هذا المنشور على مشكلة بسيطة: معرفة الفرق بين الحمض النووي الحقيقي والمحاكى (المزيف). 
يمكن تمييز هذا الحمض النووي الحقيقي عن الحمض النووي المزيف يدعم الحقيقة المعروفة بأن 
الحمض النووي لدينا منظم للغاية وليس مجرد ضوضاء عشوائية. للمضي GG‏ التعلم الشخصي 
الخاص بيء بالإضافة إلى بحثيفي المعلوماتية الحيويةء أود معالجة المزيد من المشكلات المثيرة 
للاهتمام والاستفادة من الطبيعة عالية التنظيم للحمض النووي. 


المصدر 


https://medium.com/(2)jackduryea/identification -of-bona-fide-dna 
sequences-with-deep-learning-9dee0081a5a8 
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18( نموذج التعلم العميق للتنبق Deep learning model mRNA Hai‏ 
to predict mRNA degradation‏ 
تصميم نموذج التعلم العميق الذي Lus‏ بمعدلات التحلل ¿degradation rates‏ كل قاعدة 
لجزيء الحمض النووي الريبي RNA‏ باستخدام مجموعة بيانات Eterna‏ التي تضم أكثر من 
0 جزيء من RNA‏ 


لقاحات indb (mRNA‏ مكافحة جائحة COVID-19‏ وهي مصحوبة بقيود. تحد مشكلة 
الاستقرارفي جزيتات RNA‏ المرسال messenger RNA (mRNA)‏ من حزمهاني محقنة يمكن 
التخلص منها وتوزيعها حول العالم باستخدام نظام التبريد -(nih.gov) refrigerating system‏ 
يتمثل التحدي الرئيسي في تصميم لقاح مستقر لل MRNA‏ يمكنه تحمل الشحنفي جميع أنحاء العالم 
oM‏ قطع واحد يمكن أن يجعل اللقاح بأكمله عديم الفائدة. اكتشف الباحثون Cal‏ أن جزيئات 
mRNA‏ تميل إلى التحلل iie LL degrade‏ وفي هذا المشروع» سنقوم بتصميم النموذج للتنبؤ 
بمعدل التحلل degradation rate‏ الذي يمكن أن يساعد العلماء والباحثين على تصميم لقاحات أكثر 
(GL ial‏ المستقبل. حاليًاء للتغلب على هذه المشكلة؛ نحتفظ بهذه اللقاحات تحت التبريد المكثف». 
لكن هذا أيضًا محدود لأن هذه اللقاحات متاحة لعدد أقل من الناس حول العالم. OpenVaccine‏ 


prone to cutting 


safe from degradation 


mRNA molecule 


أهداف المشروع 

في هذا المشروع» سنقوم باستكشاف مجموعة البيانات الخاصة بنا ثم التسلسل المُعالج مسبقاء 
والهيكل» وميزات نوع الحلقة المتوقعة بحيث يمكن استخدامها لتدريب نموذج GRU‏ للتعلم العميق. 
أخيرًا توقع سجلات التحلل degradation records‏ على مجموعات البيانات العامة واختبارها. 
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الانستعداد 
سنستخدم TensorFlow‏ كمكتبتنا الرئيسية لبناء وتدريب نموذجنا و JSON / Pandas‏ لاستيعاب 
البيانات. للتصور. سنستخدم 1106197 وللتلاعب بالبيانات .Numpy‏ 


f Dataframe 

import json 

import pandas as pd 

import numpy as np# Visualization 

import plotly.express as px# Deeplearning 

import tensorflow.keras.layers as L 

import tensorflow as tf# Sklearn 

from sklearn.model selection import train test splitfSetting seeds 
tf.random.set seed (2021) 

np.random.seed (2021) 


معلمات التدريب 
Target columns e‏ : التفاعلية. 1110م «deg Mg 50C «deg Mg‏ 8110م «deg‏ 
deg 50C‏ 


Model Train o‏ : صحيح BE‏ كنت تريد تدريب نموذج يستغرق ساعة واحدة للتدريب. 


# This will tell us the columns we are predicting 

deg MO SUC deg PHOT,‏ لاس Gols = rede , eg Ne‏ ع وض وعم 
dea SOC [‏ 

Model Train = True f True if you want to Train model which take 1 hour 
(Eo. Crema 


مقياس أداء النموذج الخاص بنا هو MCRMSE‏ (متوسط جذر العمود متوسط الخطأ التربيعي 


£ 


«(Mean column-wise root mean squared error‏ والذي يأخذ الجذر التربيعى للخطأ 
التربيعى للحقيقة الأساسية لجميع الأعمدة المستهدفة. 


N n 
RMSE = | T — fi)? 
MCRMSE = ب‎ » » j;j) 
predicted والمتوقعة‎ actual حيث عدد أعمدة هدف الحقيقة الاساسية المسجلةء وهي القيم الفعلية‎ 
على التوالى.‎ «values 
def MCRMSE(y true, y pred) :## Monte Carlo root mean squared errors 


OSE mee = EE rectes Mean (el sende e = y oe ch A5) 
return tf.reduce mean(tf.sqrt(colwise mse), axis-1) 


تتوفر بيانات تحلل mRNA‏ على .Kaggle‏ 


شرح تفاصيل الأعمدة 


-error يجب أن يتطابق هذا مع طول أعمدة التفاعلية و * ع6 وأعمدة‎ Seq scored e 


Job seq length o‏ التسلسل. 
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N 
[op] 
[o9] 


Ae وهو مزيج من ى و © ولا وح لكل‎ RNA يصف تسلسل‎ sequence e 

structure e‏ مصفوفة من (0) و. الأحرف التي يتم التبرع بها للقاعدة هي أن يتم إقرانها 
paired‏ أو إلغاء إقرانها .unpaired‏ 

ireactivity e‏ هذه الأرقام هي قيم تفاعلية لأول 68 قاعدة تستخدم لتحديد LII‏ الثانوية 
المحتملة لعينة RNA.‏ 

10 احتمالية التحلل بعد الحضانة بدون المغنيسيوم على الرقم الهيدروجيني‎ ideg 5110م‎ e 
linkage أو الوصلة‎ base عند القاعدة‎ 

10 احتمالية التحلل بعد الحضانة بالمغنيسيوم على الرقم الهيدروجيني‎ ideg Mg 5110م‎ e 
عند القاعدة أو الوصلة.‎ 

:deg 50C .‏ احتمال التحلل بعد الحضانة بدون المغنيسيوم عند 50 درجة مئوية عند القاعدة 


أو الوصلة. 

ideg Mg 500 e‏ احتمالية التحلل بعد الحضانة بالمغنيسيوم عند 50 درجة مئوية عند 
القاعدة أو الوصلة. 

ه * error‏ *: الأخطاء المحسوبةفي القيم التجريبية التي تم الحصول عليهاني التفاعلية 
وأعمدة * deg‏ 


:Forecasted loop type °‏ أنواع الحلقة التي يحددها bpRINA‏ من Vienna‏ والتي 
تقترح S: paired Stem, M: Multiloop, I: Internal loop, B: Bulge, H: ٠‏ 
.Hairpin loop, E: dangling End, X: external loop‏ 


مراقبة البيانات 
data dir = "stanford-covid-vaccine/"‏ 
EEA = DA rees Jeen (Cewe obse" 4p erein] SON, NESE)‏ 
test = Od. read SOM(da Ea chus sp EES SOM, MESE Ue)‏ 
sample df = pd.read csv(data dir * "sample submission.csv")‏ 


لدينا تسلسل وبنية وأنواع حلقات متوقعةفي تنسيقات نصية. سنقوم بتحويلها إلى رموز رقمية بحيث 
يمكن استخدامها لتدريب نماذج التعلم العميق. ثم لدينا مصفوفات داخل الأعمدة من 
deg 50C JJ} reactivity error‏ سنستخدمها كأهداف. 

train.head(2)print('Train shapes: ', train.shape) print('Test shapes: 


', test.shape)Train shapes: AO, O 
Test shapes: 965947 0 


تحتوي مجموعة بيانات الاختبار فقط على التسلسل sequence‏ والهيكل structure‏ ونوع الحلقة 
المتوقع predicted loop type‏ وطول السلسلة seq length‏ والمتسلسل seq scored‏ والمعرف 
iid‏ سنستخدم مجموعة بيانات اختبار للتنبؤ بمعدل التحلل لدرجة لوحة القائد العام public leader‏ 


.board score 
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a jo)‏ الإشارة إلى الضوضاء 
يمكننا أن نرى أن توزيع الإشارة إلى الضوضاء signal-to-noise distribution‏ يتراوح بين 0 إلى 
ol, 5‏ غالبية العينات تقع بين 6-0. لدينا أيضًا قيم سالبة علينا التخلص منها. 


fig = px.histogram( 

train, 

"signal to noise", 

nbins-25, 

El e< eiemel EO 262085 له عت قا‎ y 
width-800, 

height-400 

) 

fig.show() 


signal to noise distribution 


count 


10 


signal to noise 
Treun = CTA CUCL (subo co MOSES >= EV) 
طول تسلسل الاختبار‎ 
بعد النظر إلى توزيع طول التسلسل» نعلم أن لدينا طولين تسلسلين مميزين» أحدهما عند 107 والآخر‎ 
.130 عند‎ 


fig = px.histogram( 

best, 

"seq length", 

nbins-25, 

El usecmreneeaslencsnclste te Ue ORL‏ دا 
width-800,‏ 

height-400 

) 

fig.show() 


sequence length distribution 


count 


110 115 120 125 130 


seq length 
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تجزثة الاختبار إلى إطار بيانات عام وخاص 
دعنا نقسم مجموعة بيانات الاختبار الخاصة بنا على أساس طول التسلسل. سيؤدي القيام بذلك إلى 
تحسين الآداء العام لنموذج GRU‏ الخاص بنا. 


GUE VISE lencia == TONo verte Qf =‏ تفع = obe‏ لك الاسم 
(Vecs lencia == 150%)‏ عت EESE‏ 


إنشاء حرف إلى قاموس أعداد صحيحة سنستخدمه لتحويل تسلسل RINA‏ والبنية ونوع الحلقة التنبؤية 
إلى أعداد صحيحة. 
token2int = (x: i for i, x in enumerate("().ACGUBEHIMSX")]‏ 
tolken2dmu( IC: O, yt tnu QU PATI OU A GU b UO: 6G, TBI:‏ 
TE: 10, 24:11 ST: 12, TX: 13}‏ 85:90" ;8 :"هس" ,7 
تحويل إطار البيانات الى مصفوفة ثلاثية الابعاد 
تأخذ الدالة أدناه إطار بيانات Pandas‏ وتحولها إلى مصفوفة NumPy‏ ثلاثية الأبعاد. سنستخدمه 


لتحويل ميزات التدريب والأهداف. 


def dataframe to array (df): 
return np.transpose(np.array(df.values.tolist()), (0, 2, 1)) 


ترميز Juil‏ 
Tokenization of Sequence‏ 
تستخدم الدالة أدناه سلسلة من قاموس الأعداد الصحيحة التي أنشأناها مبكرًا لتحويل ميزات التدريب 
إلى مصفوفات تحتوي على أعداد صحيحة. ثم سنستخدم dataframe to array‏ لتحويل مجموعة 

البيانات الخاصة بنا إلى مصفوفة NumbPy‏ ثلاثية الأبعاد. 
def dataframe label encoding(‏ 
ure N, Worschkerecl loog musst]‏ 2ك ا dF, EokenZinte, CGOl5=| escranca,‏ 
)z‏ 
return dataframe to array(‏ 


df[cols].applymap(lambda seq: [token2int[x] for x in segl) 
) ## tokenization of Sequence, Structure, Predicted loop 


المعالجة المسبقة للميزات والتسميات 
e‏ استخدام دالة الترميز على التسمية label encoding‏ ميزات التدريب لدينا. 
e‏ تحويل إطار البيانات الهدف إلى مصفوفة ثلاثية الأبعاد. 
train inputs = dataframe label encoding (train, token2int) ## Label‏ 
encoding‏ 


train labels = dataframe to array(train[target cols]) 44 dataframe to 
3D array to 


Î‏ والتعقق من االضيحة 
تم بيانات التدريب لدينا | جموعات تدريب والتحقق من الصحة. نحن نستخدم فلتر إشارة | 
تقسيم بي يب لدينا إلى مجمو ريب وا من نحن م فلتر إشارة | 
ضوضاء noise filter‏ لتوزيع مجموعة البيانات الخاصة بنا بالتساوي. 
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se creim, x val, y EO y vel = E Cest الم‎ 

Treu mottes; cren labels, CESE Sze l; rencon sStete= A, 
stratify-train.SN filter 

) 


المعالجة المسبقة لإطار البيانات العام والخاص 

في وقت سابق» قمنا بتقسيم مجموعة بيانات الاختبار الخاصة بنا إلى dale‏ وخاصة بناءٌ على طول 
التسلسل» والآن سنستخدم dataframe label encoding‏ لترميزها وإعادة تشكيلهافي مصفوفة 
NumPy‏ كما فعلنا نفس الشيء مع مجموعة بيانات التدريب. 


public inputs - dataframe label encoding(public df, token2int) 
private inputs - dataframe label encoding(private df, token2int) 


التدريب /تقييم النموذج 

قبل القفز مباشرة إلى نموذج التعلم العميق» اختبرنا معززات التدرج gradient boosts‏ الأخرى مثل 
.CatBoosts Light GBM‏ أثناء تعاملنا مع التسلسل» جربت نماذج -BILSTM‏ لکن أداءها جميعًا 
كان أسواً مقارنة بنموذج GRU‏ الثلاني مع التنشط الخطي linear activation‏ 


يتأثر هذا النموذج بنماذج xhlulu‏ الأوليةء وقد اندهشت من مدى بساطة طبقة [1<1في تحقيق أفضل 
النتائج الممكنة دون استخدام زيادة البيانات data augmentation‏ أو هندسة الميزات feature‏ 


.engineering 


def build model ( 

mbed size, f Length of unique tokens 

seq len-107, # public dataset seq len 

pred len-68, # pred len for public data 
dropout-0.5, 4 trying best dropout (general) 
sp dropout-0.2, $ Spatial Dropout 

embed dim-200, # embedding dimension 

hidden dim-256, f hidden layer units 

JE 

inputs > L.Input(shape-(seq len, 3)) 

embed > L.Embedding(input dim-embed size, 
output dim-embed dim) (inputs) 

reshaped = tf.reshape( 

embed, shape-(-1, embed.shape[1], embed.shape[2] * embed. shape [3] ) 
) 

hidden > L.SpatialDropoutlD(sp dropout) (reshaped) 
3X BiGRU layers 

hidden = L.Bidirectional( 

L.GRU( 

hidden dim, 

dropout-dropout, 

return sequences-True, 

kernel initializer-"orthogonal", 

) 

) (hidden) 
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hidden = L.Bidirectional( 

L.GRU( 

hidden dim, 

dropout-dropout, 

return sequences-True, 

kernel initializer-"orthogonal", 
) 
) (hidden) 

hidden = L.Bidirectional( 

L.GRU( 

hidden dim, 

dropout-dropout, 

return sequences-True, 
kevnelsimaralszer-'orihogonal v 
) 
) (hidden) 

Since we are only making predictions on the first part of each 
sequence, 

we have to truncate it 

enuncateda > hidden 7 Pred lenl 

out = L.Dense(5, activation-"linear") (truncated) 

model = tf.keras.Model (inputs=inputs, outputs=out) 
model.compile(optimizer-"Adam", loss-MCRMSE) # loss function as of 
Eval Metric 

return model 


بناء النموذج 

بناء نموذجنا عن طريق إضافة حجم التضمين embed size‏ )14( وسنستخدم القيم الافتراضية 
عن E e‏ 

للمعلمات الأخرى. 


107 :sequencelength,|.L.- طول‎ o 

68 :prediction length طول التنبؤ‎ œ 

0.5 :dropout التسرب‎ e 

0.2 :spatial dropout التسرب المكاني‎ e 

200 :embedded dimensions الأبعاد المضمنة‎ e 

256 :hidden layers dimensions أبعاد الطبقات المخفية‎ e 


model = build model( 

mbed size-len(token2int) ## embed size = 14 
) ## uniquie token in sequence, structure, predicted loop type 
model.summary()Model: "model" 


Layer (type) Output Shape Param f£ 
input 1 (InputLayer) None, LO | 0 
embedding (Embedding) (None, 107, 3, 200) 2800 


tf.reshape (TFOpLambda) (None, 107, 600) 0 
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0 
1317888 
31812 020 
TEZZA 
0 


2565 


تدريب النموذج 
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(None, 107, 
(None, 107, 
(None, 107, 
(None, 107, 
(None, 68, 


(None, 68, 


spatial dropoutlid (SpatialDr 


(Bidirectional 


bidirectional 


Dd Eee ona ll Û (BIGA EEE OM 


bidirectional 2 (Bidirection 


Ef. Operatore ^ ل د‎ (S1 


3,688,693 


'rainable params: 3,688,693 


dense (Dense) 


= 


"9621 params: 


= 


Non-trainable params: 0 


سنقوم بتدريب نموذجنا لمدة 40 فترة epochs‏ وحفظ model checkpoint‏ مجلد النموذج. لقد 


جربت أحجام الدفعات batch sizes‏ من 16. 32. 64 وإلى حد بعيد 64 حجم دفعة أنتجت نتائج 


أفضل وتقارب سريع fast convergence‏ 


كما يمكننا أن نلاحظ أن IS‏ من خطأ التدريب والتحقق من الصحة (MCRMSE)‏ يتناقص مع كل 
تكرار حتى 20 فترة ومن هناك يبدأونفي التباعد diverge‏ بالنسبة للتجربة التالية» سنحافظ على عدد 
الفترات محددًا بعشرين فترة للحصول على نتائج سريعة وأفضل. 


tf.keras.callbacks.ReduceLROnPlateau (patience-5), 
tf.keras.callbacks.ModelCheckpoint ("Model/model.h5"), 


o HILOS 
.3601 
.3410 
255 
.3188 


5:9E 93) 


loss: O0 


lossa O 


0 دوو 


logsz O 


tosga 0 


lossg O 


if Model Train: 
history = model.fit( 


xX 1 
Vadim, 


validation data-(x val, y val), 


val 


Val 


yal 


Val 


val 


Val 


lossi 4596 = 
losss (053956 = 
loss 1053097 = 
loss: (0.341619. = 
lossi 0.5557 = 
losss (53295 = 


batch size-64, 
epochs-40, 
verbose-2, 
callbacks-[ 


1, 
) 
Epoch 1/40 
30/30 = G9g = 
Epoch 2/40 
30/30 = 57S = 
Epoch 3/40 
320/20 = 578 = 
Epoch 4/40 
30/30 = 578 = 
Epoch 5/40 
30/90. = 578 = 
Epoch 6/40 
30/30 = 57S = 
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.3098 
MOOD 
.2899 
ON 
5:2 1/615 
o2 pbi 
20 
. 24 
.2580 
o ELO) 
oil 
.2461 
.2492 
.2434 
.2411 
T2391 
.2412 
.2432 
.2384 
.2364 
MOS 
.2343 
MOS 
002525 
oe 
0999 


MOI 


LOSS: 


LOSS: 


TOSS: 


LOSS: 


TOSSA 


loss: 


TOSS: 


loss: 


LOSS: 


LOSS: 


LOS: 


LOSS: 


LOSS: 


LOSS: 


LOSS: 


LOSS: 


LOSS: 


OS 


LOSS: 


TOSS: 


loss: 


LOSS: 


LOSS: 


LOSS: 


LOSS: 


IOS, 


TOSS: 


MaL 


Val 


yal 


vak 


ya 


val 


yal 


Val 


va 


Val 


val 


val 


Val 


Val 


Val 


yar 


Val 


val 


MaL 


val 


val 


val 


Val 


val 


Val 


val 


val 


.3200 


asiy 


.3046 


729009 


729M9 


229890 


od IW i 


od dg 


.2640 


o2 


.2540 


.2514 


.2485 


.2453 


.2424 


2239 


.2380 


PEN 


22590 


556 


.2306 


M22 p 


.2242 


20292 


o0 Ti 


2 


odd. 75 


LOSS: 


LOSS: 


JOSS 


LOSS: 


LOSS: 


LOSS: 


LOSS: 


LOSS: 


LOSS: 


LOSS: 


OSS 


LOSS: 


LOSS: 


LOSS: 


LOSS: 


OSS 


LOSS: 


LOSS: 


LOSS: 


LOSS: 


LOSS: 


LOSS: 


LOSS: 


125 


LOSS: 


LOSS: 


OSS 


7/40 
= 513 
8/40 
= Os 
9/40 


I 
رق‎ 
ل‎ 
[0] 


10/4 


I 
U 
ل‎ 


11/4 


I 
U 
ل‎ 
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I 
U 
ل‎ 
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I 
U 
ل‎ 


14/4 


I 
[91 
ل‎ 
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I 
[9 
ل‎ 
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I 
U 
N 
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I 
U 
N 
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U 
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61 
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ل‎ 


21/4 
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23/4 


I 
U 
N 


24/4 
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[9 
N 


25/4 
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26/4 


I 
[9 
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27/4 


I 
[91 
ل‎ 


28/4 


I 
[9 
N 


29/4 


I 
U 
N 


30/4 


I 
U1 
N 


31/4 


I 
[91] 
ل‎ 


32 / 4 


I 
[91 
ل‎ 


33/4 


I 
C 
ل‎ 
OU OU OV OV اي اناي إن فى‎ (egy Xem) أي اين يي رن‎ (asp SGU OV cem p]. ON OU يقي‎ deny. SU xem) نتن‎ OGU OV Xem ان‎ OU G0 OD G 


34/4 
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310/30] — 57s = loss; 0,2160 = yal lossy (0.2910 
Epoch 35/40 
30/30 — 57S = loses 0-2157 — val losses 152299 
Epoch 36/40 
30/30 — Sys — lossi 0-2119 = val loses (052298 
Epoch 37/40 
30/30) = Sus = loss; O.23/9)L = val Joss 105227 
Epoch 38/40 
310/90 — 57s = LOSS (052/099. = val losses 1052274 
Epoch 39/40 
20/50 — 57s = loss; 0,2062 = val MOSS (0.2205 
Epoch 40/40 
30/30 — Sys — loess: 0.20064. — vel losses 109.226 


تقييم تاريخ التدريب 
تم تقليل كل من خطأ التحقق من الصحة والتدريب حتى 20 فترة. أصبح خطأ التحقق من الصحة GE‏ 
بعد 35( لذافي رأيي» يجب أن نختبر النتائجفي كل من 20 و35 فترة. 


if Model Train: 

fig = px.line( 

history.history, 

wes akon "eub lossy 

labels-[("index": "epoch", "value": "MCRMSE"], 
title-"History", 

) 

fig.show() 


History 


© 
0 


Il 


MCRMSE 


تحميل النماذج وعمل التنبؤات 

تم تقسيم مجموعة بيانات الاختبار إلى مجموعات عامة وخاصة لها أطوال تسلسل مختلفةء لذلك من 
أجل التنبؤ بالتحلل على أطوال مختلفةء نحتاج إلى بناء نموذجين مختلفين وتحميل نقاط الحفظ 
checkpoints‏ المحفوظة لدينا. هذا ممكن oY‏ نماذج RNN‏ يمكن أن تقبل تسلسلات ذات أطوال 
متفاوتة كمدخلات. 


18( نموذج التعلم العميق ĝui‏ بتحلل E mRNA‏ 


سنقوم ببناء نموذجين مميزين بتسلسلات متباينة وأطوال توقع. يحتوي نموذجنا العام على 107 طول 
النموذجين للتنبؤ بتحلل mRNA‏ 


UOCEN lole = O IE MONE (HEC LENO, EOS HENO, 
mbed size-len (token2int)) 

model private = build model(seq len-130, pred len-130, 
mbed size-len (token2int)) 

model public.load weights ("Model/model.h5") 

model private.load weights ("Model/model.h5") 


لقد نجحنافي توقع كل من مجموعات البيانات العامة والخاصة.في الخطوة AJLI‏ سنقوم بدمجها 
باستخدام معرف الاختيار test id‏ 


public prece = model public.predict(public inputs) 
DE elel Peds — 
model private.predict(private inputs)private preds.shape(3005, 130, 5) 


المعالجة اللاحقة والإرسال 
تحويل مصفوفة 3D NumPy‏ إلى إطار بيانات: 


e‏ الجمع بين إطارات البيانات الخاصة والعامة. 

e‏ إضافة سلسلة من الأعداد الصحيحة أمام المعرف بناءً على سلسلة من التنبؤات الفردية على 
سبيل المثال [0 id 00073f8be 2.id 00073f8be 1 «id 00073f8be‏ ..[ 

«submission والاستعداد للتسليم‎ Pandas دمج جميع البياناتني إطار بيانات‎ e 


pede le = [py 

for df, preds in [(public df, public preds), (private df, 
DEVE e PEGS) J| 8 

for i, uid in enumerate (df.id) : 

Sine PEE > فل سن‎ I Ul 

single df = pd.DataFrame (single pred, columns-target cols) 
EOE Ck Aiel exero" || = PENti ox] EOE xe aho 
range(single df.shape[0])] 

preds ls.append(single df) 

preds df = pd.concat(preds 1s) 


preds df.head() 


reactivity deg Mg pH10 deg Mg 50C deg pH10 deg 50C id seqpos 
0 0.685760 0.703746 0.585288 1.857178 0.808561 id 00073f8be 0 
1 2.158555 3.243329 3.443042 4.394709 3.012130 id 00073f8be 1 
2 1.432280 0.674404 0.672512 0.662341 0.718279 id 00073f8be 2 
3 1.296234 1.306208 1.898748 1.324560 1.827133 id 00073f8be 3 
4 0.851104 0.670810 0.971952 0.573919 0.962205 id 00073f8be 4 


277 التعلم العميق واستخداماته في المعلوماتية الحيوية 


التسليم 

دمج إطار بيانات العينة مع المتوقع على seqpos,‏ 11 لتجنب التكرار والتأكد من أنه يتبع تنسيق التسليم. 

-.CSV أخيرًاء احفظ إطار البيانات الخاص بنافي ملف‎ 
submission > sample df[["id seqpos"]].merge(preds df, 
on-["id seqpos"]) 
submission.to csv("Submission/submission.csv", 
index-False)submission.head() id seqpos reactivity deg Mg pH10 
deg Mg 50C deg pH10 deg 50C 
O0 id 00073£8be 0 0.685760 0.703746 0.585288 1.857178 0.808561 


JL ie (QOO T م‎ 1 2 USS Somalie) Sr AALS sev T) 0 
2 id 00073f8be 2 1.432280 0.674404 0.672512 0.662341 0.718279 


submission (10).csv just now 1 seconds 3 seconds 0.27238 


Jump to your position on the leaderboard > 


3 aue OOO EBE S 1206254 Lo 206200 T SOS TAS) 3L SEI 5 
4| aol (90/0 7S3EGdoe A O Gotio O. COSI O OI OSE (55796) 0962205 


الاستنتاج 

كانت هذه تجربة فريدة بالنسبة لي حيث كنت أتعامل مع ملفات JSON‏ مع مصفوفات متعددةفي 
عينات واحدة. بعد معرفة كيفية استخدام البيانات» أصبح التحدي بسيطًا للغاية وأصبح لمجتمع 
Kaggle‏ دور أكبرني مساعدتيني تحقيق ذلك. كانت هذه المقالة قائمة على النموذج pais GLS‏ 
النظر عن بناء النموذج» فقد استكشفت مجموعة البيانات واستخدمت تحليل البيانات لفهم بعض 
الأنماط الشائعة. كنت أرغبفي تضمين تجاربي مع نماذج أخرى لتعزيز التدرج و/1.5:11: ولكن بعد 
ذلك قررت تقديم أفضل نموذج ممكن. 

لقد استخدمنا ملفات JSON‏ وقمنا بتحويلها إلى مصفوفات Numpy‏ ثلاثية الأبعاد رمزية ثم 
استخدمنا نموذج GRU‏ ×3 للتنبؤ بمعدل تدهور MRNA‏ أخيرًاء استخدمنا الأوزان المحفوظة 
لإنشاء نماذج مميزة لأطوال مختلفة من تسلسل RNA‏ سأقترح عليك استخدام الكود الخاص بي 
وتعديله للتحقق مما إذاكان بإمكانك التغلب على نتيجتيفي لوحة المتصدرين. 


الكود: 
https://dagshub.com/kingabzpro/mR NA -Vaccine-Degradation-Prediction‏ 
المصدر: 


https://pub.towardsai.net/deep -learning-model-to-predict-mrna- 
degradation -153327f32ad4 
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N 
N 
Q00 


PROTEIN تصنيف عائلة البروتين باستخدام نماذج التعلم العميقة‎ (19 
FAMILY CLASSIFICATION USING THE DEEP LEARNING 
MODELS 

مقدمة: 

يعد فهم العلاقة بين الأحماض الأمينية amino acid‏ وتسلسل البروتين protein sequence‏ مشكلة 
طويلة dM‏ الاحياء molecular biology‏ الجزيئية والآثار العلمية. 

نقوم بتطوير نموذج التعلم العميق الذي يتعلم العلاقة بين تسلسلات الأحماض الأمينية غير المحاذاة 
unaligned amino acid sequences‏ وتصنيفها الوظيفي عبر جميع قواعد بيانات PFAM‏ البالغ 
عددها 17929 عائلة. 

مشكلة العمل /العالم الحقيقى 

المهمة هي: بالنظر إلى تسلسل الأحماض الأمينيةفي مجال البروتين» توقع الفئة class‏ التي ينتمي | 
يوجد حوالي مليون مثال تدريب» و17929 فئة إخراج. 


— X 
EC 


deoxyribose 
backbone 


نستخدم بيانات التسلسل غير المحاذاة unaligned sequence data‏ لتدريب نماذج التعلم العميق 
لمعرفة التوزيع عبر عائلات البروتين للعثور على التحسين المشترك. 

البيانات: 

نقسم البيانات إلى مجموعة تدريب train‏ وتطوير development‏ ومجموعة اختبار test‏ نحن 
نستخدم بيانات التدريب لتدريب نماذجناء ويمكن أن تكون بيانات التطوير للتحقق المتبادل 7055© 
0 هه وبيانات الاختبار محفوظة للتقييمات. 
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لدينا مجالات مختلفةفي البيانات: 


family id sequence name family accession — aligned sequence sequence 
CARB LACS1/422- 5 
0 CPSaseL D3 ` 8 E PF02787.19 EKLFHAQDDRLFYIAEAF.RRG, Y.....TIE EV. EKLFHAQDDRLFYIAEAF 
H2T42 TAKRU/225- 5 " 
1  SOCS box عت‎ PF07525.16 PPALMDLCA. LAIQQ.HLGQQRHN Q PPALMDLCALAIQQHLG( 


Q8QNC2 ESV1K/681- r 0 
2 Glug 207 = PF07581.12 TNGRTGGVVGHAVG TOVTMCRNVA..TF TNGRTGGVVGHAVGTD' 
707 


` ABMEK6, ALKOO/172- us MEM 3 1 MES sop 
8  PepSY má PF03413.19 VISEEQA KKIA LEK LN VISEEQAKKIALEKINGKN 
23 


D1AKJ7 SEBTE/3- 


453 PF01625.21 EIILAGGCFWGVEAYF.QRLN G.MI...KTEVGYTDG EIILAGGCFWGVEAYFQI 


وصف الميزات: 

uniprot accession id | $ $ xb اسم التسلسل»‎ :sequence name .4 
start index- $ end index 

Ísle sequence 5‏ ما رن ida‏ هي ميزات الإدخالفي نموذجك. تسلسل الأحماض الأمينية 
لهذا المجال. هناك 20 نوعًا من الأحماض الأمينية الشائعة جد (التردد> 1000000(« و 4 
أحماض أمينية غير شائعة تمامًا: ZO BU CX‏ 

:Family accession .6‏ عادة ما تكون هذه هي التسميات الخاصة بنموذجك. رقم المدخل 
بالصيغة PPxxxxx. y (Pfam)‏ . حيث xxxxx‏ هو اسم العائلة » و y‏ هو رقم الإصدار. 

family id .7‏ اسم العائلة من كلمة واحدة. 

aligned sequence .8‏ يحتوي على تسلسل واحد من محاذاة التسلسل المتعدد. 


تحليل البيانات الاستكشافية 

نقوم بتصور البيانات لفهم البيانات ولإزالة القيم المتطرفة outliers‏ الموجودةفي البيانات. نقوم Caf‏ 
بتحليل سلوك البيانات حتى نتمكن من القيام باستخراج الميزات feature extraction‏ وهندسة 
الميزات feature engineering‏ فوق البيانات. 


In [0]: import seaborn as sns 
sns.violinplot(fd['alignment length']) 


Jut[12]: «matplotlib.axes. subplots.AxesSubplot at 0x251926946d8» 


0 500 1000 1500 2000 2500 3000 


فط الان gll‏ الس ` 
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dev['alignment length'] = dev.aligned.sequence.str.len() 
dev.alignment length.hist(bins-30) 
plt.title('Distribution of alignment lengths') 
plt.xlabel('Alignment length') 

plt.ylabel('Number of sequences') 


Text(8, 8.5, 'Number of sequences') 


Distribution of alignment lengths 


Number of sequences 


0 500 1000 1500 2000 — 2500 3000 
Alignment length 


توزيع الأطوال المحاذاة. 
استخراج الميزات وهندسة الميزات: 
تقوم شبكة الإدخال بتعیین د Aes ela‏ مجموعة ثنائية (L,26)‏ والتي ليست 
سوى الأبجدية الموجودةفي الأحماض الأمينية, حيث يمثل كل عمود تمثيل الأحماض الأمينية. 


A 
input one-hot pad with zeros 
A EE, O; 07 2] 
ADE La deu 
[0, eld; 
[0, 1] 
B arameter C i 
É [ PS daks ProtCNN residual block | 
$ : آم‎ add 
3 optimizer 
- likely I 1 
$ | irs loss bottleneck 
9 — convolution 
E class probability. I 
L predictions ReLU 
š r- I 
E E] batch norm 
31 0 j 
25 ل‎ (dilated) 
z H convolution 
3 a 1 
0 5 - | ReLU 
pom) — 
š - 
9 ne-hot encode, 
E ol 1 Bat batch norm 
25 n4 — 1 : 
5 Pfam family - 
H E amino acids. accessions — input features 
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يتم تبطين التسلسلات بطول أطول تسلسلفي الدفعة إلى مصفوفة )1,26( تحتوي على تمثيل واحد من 
الأحماض الأمينية ذات الترميز واحد ساخن لمصفوفة التسلسل (1,۴) التي تحتوي على التضمين 
لبقايا التسلسل. تم تصميم جميع عمليات المعالجةني شبكة التضمين اللاحقة بحيث تكون ثابتة على 
الحشو الذي تم تقديمه لتسلسل معين. 

import string 


def string vectorizer(strng, alphabet-string.ascii lowercase): 


vector = [[0 if char !- letter else 1 for char in alphabet] 
for letter in strng] 

vectorl-np.array(vector) 
shapeout-vectorl.shape[0] 
diff-600-shapeout 
reshapearray-np.zeros((diff,26),dtype-int) 
lenarray-len (strng) 
finalarray-np.vstack((vector,reshapearray,newarray)) 
return finalarray 

trainarrayl-[] 

for sen in traindataframe['sequence']: 


trainarrayl.append(string vectorizer(sen.lower())) 


testarrayl-[] 
for sen in testdataframe['sequence']: 


testarrayl.append(string vectorizer(sen.lower())) 


cvarrayl-[] 
for sen in cvdataframe['sequence']: 


cvarrayl.append(string vectorizer(sen.lower())) 


trainarrayl-np.array(trainarrayl).reshape(len of traindata, 600,26) 


testarrayl-np.array(testarrayl).reshape(len of testdata, 600,26) 
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cvarrayl-np.array(cvarrayl).reshape(len of cvdata, 600,26) 


لدينا تسميات الفئات التي ليست سوى الوصول إلى family accession‏ البيانات هي تسمية 
لتعيينها كمتغيرات الهدف .target variables‏ 


Sklearn.preprocessing import LabelEncoder 


Pda 


from 


labell-LabelEncoder() 


labell.fit(totaldataframe['family accession']) 


trainy-labell.transform(traindataframe['family accession']) 


testy-labell.transform(testdataframe['family accession']) 


cvy-labell.transform(cvdataframe['family accession']) 


cu Jai‏ النموذج 


تستخدم شبكات ProtCININ‏ الخاصة بنا الشبكات المتبقية ResNets)‏ وهو نوع من الشبكات 
العصبية التلافيفية CNN‏ التي تتدرب بشكل أسرع وأكثر استقرارًا )» حتى مع وجود العديد من 
الطبقات» تعتبر شبكات ProtCNIN‏ ثابتة من حيث الترجمة» وهي ميزة للعمل مع بيانات تسلسل 


البروتين غير المحاذاة. العديد من المخلفات. يأخذ الالتفاف 11 المتوسع n‏ عمليات التفاف 


قياسية 


على كل CONES A ipee ê‏ المعلومات المحلية والعالمية دون زيادة كبيرةفي عدد 


معلمات النموذج. 


import keras as keras 


import tensorflow as tf 


keras.models import Sequential 
keras.layers import Dense,Dropout,Flatten,BatchNormalization 


keras.layers import Conv1D,MaxPoolinglD 


from 


from 


from 


model-Sequential )( 


model.add(Conv1D(2000,kernel size-26,activation-'relu',input shape- (20 


)) 
L.add(MaxPoolinglD(pool size-2)) 
.add (Dropout (0.4)) 
.add(BatchNormalization()) 


.add(Conv1D(250,20,activation-'relu')) 


.add(MaxPoolinglD(pool size-4)) 


.add (Dropout (0.6) ) 


0,26) 


mode] 


model 


model 


model 


model 


model 
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model.add(BatchNormalization()) 
model.add(Flatten()) 
model.add(Dense(11836,activation-'softmax!')) 


model.compile(loss-keras.losses.sparse categorical crossentropy,optimi 
zer-'adam',metrics-['accuracy']) 


history-model.fit(trainarray,trainy,epochs-30,validation data-[testarr 
ay,testy],batch size-128) 


نستخدم محسن آدم «Adam optimizer‏ حيث يخضع معدل التعلم للاضمحلال الأسي 
exponential decay‏ وفي وقت التدريب نقدم النموذج بدفعات مرسومة uie‏ 


من e‏ المعاملات الفائقة hyperparameter‏ المركبة هو حجم المجال الاستقبالي receptive‏ 

field size‏ لكل ميزة لكل بقاياء والتي تصف طول التكرارات اللاحقة التي تؤثر على قيمتها. يتبح 

استخدام التلافيف المتوسعة الحصول على أحجام مجال استقبالية أكبر دون حدوث انفجارفي عدد 

معلمات النموذج. على حد علمناء هذا هو أول تطبيق للتلافيف المتوسعة لتصنيف تسلسل البروتين. 

ثم يتم تجميع المصفوفة (1,۴) على طول التسلسل لضمان الثباتفي الحشو. 

74 هو امتداد ل LLSTM‏ حيث يبدأ التكرار الإضافي من الخطوة الزمنية الأخيرة للتكرار 

الأمامى وينتقل للخلف إلى الخطوة الزمنية الأولى للتكرار الأمامى. وبالتالى يمكن التقاط المعلومات 
الواردةفي الخطوات "المستقبلية" وتساعدفي عمل التنبؤاتفي ERA‏ زمنية Aga‏ 

import keras as keras 

import tensorflow as tf 

from keras.models import Sequential 

from keras.layers import Dense,Dropout,Flatten,BatchNormalization 


from keras.layers import Conv1D,MaxPoolinglD 


from keras.layers import LSTM,Bidirectional 

model-Sequential )( 
model.add(Dense(200,activation-'relu',input shape- (200,26))) 
model.add (Dropout (0.4) ) 

model.add(BatchNormalization()) 
model.add(Bidirectional(LSTM(26,dropout-0.2,return sequences-True))) 


model.add(BatchNormalization()) 


model.add(Flatten()) 
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model.add(Dense(11836,activation-'softmax!')) 


model.compile(loss-keras.losses.sparse categorical crossentropy,optimi 
zer-'adam',metrics-['accuracy']) 


history-model.fit(trainarray,trainy,epochs-3,validation data-[testarra 
y,testy],batch size-128) 


الانستنتاج 

يمكن أن تؤدي زيادة عدد معلمات النموذج عبر عدد الفلاتر وحجم النواة وزيادة حجم الدفعة إلى 
تحسيناتفي الأداء. بشكل أساسي» كانت بصمة ذاكرة النماذج التي دربناها محدودة بمقدار الذاكرة 
المتاحة على وحدة معالجة رسومات واحدة, مما استلزم إجراء مقايضات بين هذه العوامل المختلفة. 
من بين التجارب التي أجريناها أفضل أداء ل ProtCINN‏ ل Pfam‏ الكامل يتكون من AES‏ متبقية 
واحدة مع 2000 فلتر. وحجم نواة 26ء وحجم دفعة 128. 

بالإضافة إلى نماذج CNN‏ قمنا Caf‏ بتدريب شبكة عصبية متكررة (RNN)‏ ذات طبقة واحدة 
ثنائية الاتجاه LSTM‏ والتي حققت دقة قدرها 0.982 على مجموعة بيانات Pfam‏ 


المصدر: 


https://vignesh943628.medium. com/protein-family- classification-using-the- 
deep-learning-models-38f4acd35f14 
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20( تصنيف تسلسل البروتين متعدد الفئثات باستخدام التعلم العميق 
Protein sequence multi-class classification using deep learning‏ 
يعد فهم العلاقة بين تسلسل الأحماض الأمينية amino acid sequence‏ ووظيفة البروتين protein‏ 
function‏ مشكلة طويلة الأمدفي الاحياء الجزيئية molecular biology‏ ذات آثار علمية بعيدة المدى. 
على الرغم من ستة عقود من التقدم» لا يمكن للتقنيات الحديثة أن تشرح ثلث تسلسل البروتينات 
الجرثوميةء مما يعيق قدرتنا على استغلال التسلسلات التي تم جمعها من كائنات متنوعة. لمعالجة هذاء 
أبلغنا عن نموذج التعلم العميق deep learning model‏ الذي يتعلم العلاقة بين تسلسل الأحماض 
الأمينية غير المحاذاة وتصنيفها الوظيفي عبر جميع 17929 ible‏ من قاعدة بيانات -Pfam‏ يقوم 
نموذجنا بتحديد موقع التسلسلات من العائلات غير المرئيةفي مساحة التضمين» مما يسمح بتوضيح 
التسلسلات من العائلات الجديدة بدقة. تشير هذه النتائج إلى أن نماذج التعلم العميق ستكون مكوتًا 
أساسيّاني أدوات التنبؤ بوظيفة البروتينفي المستقبل. يعد توقع وظيفة البروتين من تسلسل الأحماض 
الأمينية الخام خطوة حاسمة لفهم العلاقة بين النمط الجيني والنمط الظاهري. مع انخفاض تكلفة 
تسلسل الحمض النووي وازدهار مشاريع التسلسل الميتاجينومي ametagenomic sequencing‏ 
ستلعب الأدوات السريعة والفعالة التي تعلق على إطارات القراءة المفتوحة مع الوظيفة دورًا desto‏ 
استغلال هذه البيانات. 


1. مشكلة العمل /العالم الحقيقي 
تصنيف تسلسل البروتين الخاص بالحمض الأميني إلى أحد فصائل العائلة family accession‏ 


يمكن استخدام هذا النموذج للتنبؤ بتسلسل بروتين معين من الأحماض الأمينية. سيولد النموذج ae‏ 
من قيم احتمالية الفئات المقابلة لعدد الفئة أو فصائل العائلة. ستكون أعلى قيمة احتمالية للفئة المقابلة 
هى الفئة المتوقعة لتسلسل البروتين من الأحماض الأمينية. 


2. الأهداف والقيود 


الاهداف: 
هدفنا هو توقع تسلسل البروتين المحدد للحمض الأميني بأكبر قدر ممكن من الدقة. 
القيود: 
1. التفسير :Interpretability‏ التفسير مهم لتسلسل البروتين من الأحماض الأمينية الى جب 
أن تتنبأ بها بشكل صحيح. 


2. التأخير Latency‏ بالنظر إلى تسلسل البروتين للحمض الأميني» يجب أن يتنبأ بالفئة 
الصحيحة لذلك ليست هناك حاجة إلى زمن تأخير عال. 


3 


N 
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الدقة Accuracy‏ : هدفنا هو توقع تسلسل البروتين المحدد للحمض الأمينى SL‏ قدر ممكن 
من الدقة. كلما زادت دقة الاختبار. كان أداء نموذجنا أفض في العالم الحقيقي. 


3. مقاييس الأداء 
هذه مشكلة تصنيف متعددة الفئات multi-class classification‏ مع 17929 فئة مختلفةء لذلك 


.1 


2 


خطأ السجل متعدد الفئات Multi- Class Log-loss‏ : لقد استخدمنا نموذج التعلم العميق 
مع طبقة الانتروبيا المتقاطعة icross-entropy layer‏ النهاية مع 17929 وحدة 
csoftmax‏ لذلك. هدفنا هو تقليل خطأ السجل متعدد الفتات / خطأ الانتروبيا المتقاطعة. 
الدقة Accuracy‏ : يخبرنا هذا بمدى دقة أداء نموذجناني توقع التعبيرات „expressions‏ 


4. بيانات المصدر 
يتم توفير البيانات بواسطة kaggle‏ حتى نتمكن من التنزيل مباشرة من رابط Kaggle‏ المحدد - 
https://www.kaggle.com/googleai/pfam-seed-random-split‏ 


5. نظرة عامة على البيانات 
الطريقة المستخدمة لتفسيم البيانات إلى طيات folds‏ تدريب training‏ / تطوير /dev‏ اختبار testing‏ 
حي حي C‏ 
e‏ يجب استخدام بيانات التدريب لتدريب نماذجك. 
ع يجب استخدام بيانات التطوير Dev‏ (التطوير (development‏ حلقة تحقق قريبة (ربما 
لضبط المعلمة الفائقة hyperparameter tuning‏ أو التحقق من صحة النموذج model‏ 
.(validation‏ 
e‏ يجب حجز بيانات الاختبار للتقييمات الأقل تكرارًا ‏ وهذا يساعدني تجنب الضبط الزائد 


على بيانات الاختبار الخاصة بك. حيث يجب استخدامها بشكل غير متكرر. 


Distribution of family sizes for dev Distribution of family sizes for test 
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Distribution of family sizes for train Distribution of alignment lengths in train 
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توزيع أطوال المحاذاةفي التدريب 


محتوى الملف 
كل &b‏ (تدريب» c) glas‏ اختبار) بها عدد من الملفات. يحتوي كل ملف من هذه الملفات على ملف 
CSV‏ كل «des‏ والذي يحتوي على الحقول التالية: 


sequence: 


HWLQMRDSMNTYNNMVNRCFATCIRSFQEKKVNAEEMDCTKRCVTKFVGYSQRVALRF 
AE 


family accession: PF02953.15 
sequence name: C5K6N5 PERM5/28-87 


aligned sequence: 
....HWLQMRDSMNTYNNMVNRCFATCI........... RS.F....QEKKVNAEE.....MDCT....KRCVTKF 
VGYSQRVALRFAE 


family id: zf-Timi0 DDP 


وصف الحقول: 
sequence e‏ عادةً ما تكون هذه هى ميزات الإدخالفي نموذجك. تسلسل الأحماض الأمينية 
لهذا المجال. هناك 20 نوعا من الأحماض الأمينية الشائعة جد (التكرار frequency‏ > 
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N 
00 
00 


:Pamily accession e‏ عادة ما تكون هذه هي التسميات الخاصة بنموذجك. رقم المدخل 
بالصيغة PExxxxx. y (Pfam)‏ . حيث xxxxx‏ هو ES‏ العائلة » و y‏ هو رقم الإصدار. بعض 
قيم y‏ أكبر من عشرة وبالتالي فإن "y'‏ تتكون من رقمين. 

id o‏ بإلقدصة: اسم من كلمة واحدة للعائلة. 

sequence name e‏ اسم التسلسل » بالصيغة: 

“$uniprot_accession_id/$start_index-$end_index” 

:align sequence e‏ يحتوي على تسلسل واحد من محاذاة تسلسل متعدد (مع بقية أفراد 

الأسرةفي البذرةء مع الاحتفاظ بالفجوات). 


بشكل عام يعتبر family accession‏ هو التسمية dabel‏ والتسلسل sequence‏ (أو 
التسلسل المحاذي (aligned sequence‏ هو الميزة المدرية. 


محتويات هذه الحقول هي نفسها البيانات المقدمةفي تنسيق ستوكهولم بواسطة PFam‏ 
atftp: //ftp.ebi.ac.uk/pub/databases/Pfam/releases/Pfam32.0/Pfam- A.seed.gz‏ 


6. المكتبات والحزم 
لقد استخدمنا ÚE‏ جميع مكتيات التعلم العميق التي استخدمناها عادة مثل «pandas‏ و .numpy‏ 
و Keras s < sklearn‏ . وما إلى ذلك. ويمكننا تثبيتها ببساطة باستخدام 


~ 


pip install 'Lis» تحديد اسم الحزمة‎ 


7. المعالجة المسبقة والتخصيص 

لقد أجرينا بعض المعالجة المسبقة مثل التسلسل بالأحرف الصغيرة واستخدمنا الحد الأقصى لطول 
التسلسل البالغ 0 وتحويل البيانات النصية إلى شكل رقمي باستخدام sklearn countvectorizer‏ 
أو دالتنا المحددة لإنشاء قاموس وتعيين الحرف إلى نموذج الفهرس والفهرس إلى شكل حرف. 


8. النمذجة والتدريب 
لذا فقد وصلنا أخيرًا إلى آخر عملية لملائمة النموذج model fit‏ وبذلك نكون قد أكملنا 190 من 
العملية. لذا فإن هدفنا الرئيسي هنا هو إعطاء تسلسل البروتين els‏ تلو الآخر وتقليل خطأ الانتروبيا. 
لقد قمنا بتصميم بنية الشبكة العصبية الخاصة بنا على النحو التالي: 
input s = Input (shape- (100,24) )‏ 
X > Conv1D(32, 1 , strides-1,padding-'valid', name-'convid 1',‏ 


kernel initializer-glorot uniform(seed-0)) (input s) 
X > MaxPoolinglD (pool size-2) (X) 


209 20( تصنيف تسلسل البروتين متعدد الفثات باستخدام التعلم العميق 


X1 - BatchNormalization(axis-2, name-'batch normalization 1')(X) 
X2 — Activation('relu',name-'activation 1') (X1) 

X3 = BatchNormalization(axis-2, name-'batch normalization 2') (X2) 
X4 = Activation('relu',name-'activation 2') (X3) 

Cony DPE neme edes dep ac iva Merrame ConA Zl,‏ > كير 
kernel initializer-glorot uniform(seed-0)) (X4)‏ 

X6 = BatchNormalization(axis-2, name-'batch normalization 3') (X5) 
رذ‎ eise IOn V re nemes eraciren XO) 

rides OMEN velig, stehe EOI Si y;‏ ن JL‏ م Conid 2g‏ = واد 
kernel initializer-glorot uniform(seed-0)) (X7)‏ 

X8 = Dropout (0.5,name-'d1') (X8) 

X8 MaxPoolinglD(pool size-2) (X8) 

XO = Convide; Estes Macc =" valig; meme= Connie Au, 
kernel initializer-glorot uniform(seed-0)) (X2) 

X9 = Dropout(0.5,name-'d2') (X9) 

X9 = MaxPoolinglD(pool size-2) (X9) 

0 = Add() ([X8, X9]) 

1 < Activation('relu',name-'activation 4') (X10) 

1 = Dropout(0.2,name-'d3') (X11) 

2 = BatchNormalization (axis-2,name-'batch normalization 4') (X11) 
SE nebst on EEL Rame Qel valet ON SL) M CXTRA») 

4 

5 

6 


= Dropout(0.5,name-'d4') (X13) 

— Flatten(name-'flatten 1') (X14) 

= Dense S mame e" E suse(029H0) ; leue imitielizsr = 
lorot uniform(seed-0)) (X15) 

17 — Activation('softmax',name-'activation 6') (X16) 


ROK K K S 


دعونا نفهم المعمارية: 
كما نری» لدينا شكل إدخال (100,24)أي (8026,100,24)نظرًا لأن لدينا حدًا أقصى لطول 
cencoded‏ لذا فهو على سبيل المثال: 


for eg: we have shape (1,2,3) 
So one hot encode of this look like 
LESE O ONO 3E ONO O 3E] T 


هنا 1 وصف مكان تقديم فهرس char‏ وبهذه o JE‏ يتم تشفير وتمثيل جميع بيانات التدريب 
والاختبار والتطوير الخاصة بنا. 

من المعماريةء يمكننا أن نلاحظ أن لدينا 4 طبقات التفاف convolution layer‏ أحادية البعد 4D‏ 
وطبقة كثيفة Dense layer‏ وطبقة التجميع .Maxpooling‏ وطبقة التسرب Dropout‏ وطبقة 
.BatchNormalization‏ وطبقة التنشيط Activation‏ وطبقة التسوية .Flatten‏ لقد حددنا تهيئة 
الوزن weight initialization‏ إذا لم تحدد طريقة تهيئة الوزن بشكل صريحفي Keras‏ فإنها تستخدم 
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تهيئة Xavier‏ المعروفة أيضًا باسم تهيئة 610۲0۲ . الهدف من كل هذه العوامل المبدئية للوزن هو إيجاد 
تباين جيد للتوزيع الذي يتم من خلاله استخلاص المعلمات الأولية. 


«UIN Aie حول‎ 


Xe co CODZ, db n gnesexelesEdLzjsevelohümer val Id , mame eomle TEV c 
kernel initializer-glorot uniform(seed-0)) (input s) 


هنا 32 حدد 32 فلتراً بحجم نواة 1 نظرًا UM‏ استخدمنا فلتراً مختلفًاني طبقة الالتفاف حتى تعلمت 
الشبكة معلمة أفضل. لقد استخدمنا "padding - "valid‏ لذلك لن يكون هناك حشوة. 


لقد استخدمنا طبقة التسرب بين طبقة الالتفاف لأنها تساعد على منع الضبط الزائد .overfitting‏ لقد 
استخدمنا هنا معدل تسرب dropout rate‏ مختلف. أي 0.5 حددنا أنه سيتم حذف 0.5 ./ من العقد 
أثناء التمرير الأمامي والخلفي نظرًا لعدم معرفة أي معلمة أثناء الانتشار الخلفي „backpropagation‏ 
نظرًا لأن الشبكة تزيل الوحدات Ég‏ من التوصيلات. فإن إزالة عدد العقد للاتصال يكون عشوائيًا. 
حتى نتمكن من الحصول على معدل التسرب الأمثل عن طريق الضبط الفائق hyper-tuning‏ أو 
استخدام معدلات التسرب المختلفة.في حالتناء لاحظت خلال الفترات أننا كنا نعاني من الضبط الزائد 
لذا حاولت بمعدل تسرب صغير إلى كبير لتجنب الضبط الزائد (0.5-0.1). 


بعد ذلك. لدينا طبقة max-pooling‏ حيث يتم تقليل الميزات بطريقة هادفة تساعدفي اختزال العينة 
downsample‏ من طبقة الالتفاف وكما نعلم مزايا مثل ثبات الموقع location invariance‏ وثبات 
النطاق scale invariance‏ لطبقة G.max-pool‏ شبكتناء استخدمنا طبقة تجميع أحادية البعد 1D‏ 
max pool‏ بحجم 2 أثناء التكرار عبر خريطة المعالم feature map‏ لفهم المزيد عن الشبكة العصبية 
التلافيفية والطبقات. قم بزيارة هذا الرابط. 

أخيرًاء لدينا iib‏ كثيفة تحتوي على وحدات تنشيط oY GE relu‏ طبقة الإخراج تحتوي على 2910 
وحدة -softmax‏ سيولد احتمالية فئة 2910 والتي تكون مجموعها 1. سنقوم بتقليل الخطأ عن طريق 
إعادتها أثناء الانتشار الخلفي. وبهذه الطريقة» سيتم تدريب نموذج شبكتنا العصبية على تصنيف تسلسل 
البروتين. 


التدريب لمدة 100 فترة epochs‏ دون ضبط الشبكة حصلت على النتائج التالية: 
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—— Validation loss 
= Train loss 
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Categorical crossentropy loss 
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مخطط الدقة والخطاً 


كما يمكننا أن نلاحظ أن الخطأ والدقة لهما فرق بين بيانات التدريب والاختبار. أي الضبط الزائد 


.overfitting 


بعد ضبط التسرب dropout‏ وإضافة طبقة التجميع القصوى max-pooling layer‏ وتسوية الدفعات 
batch normalization‏ حصلت على دقة اختبار تبلغ 99/. 


o‏ كيف حققت دقة تزيد عن 90/ أقل من نموذج مختلف مع ضبط المعلمة الفائقة 


:hyperparameter tuning 


4--------------------------------------------------- 4---------- + 
| Model | Accuracy | 
R--------------------------------------------------- 4R---------- * 
| CNN without hyperparameter tuning | 0.8423 | 
| CNN with dropout and BatchNomalization | 0.9211 | 
| CNN with dropout, BatchNormalization & Max-pooling | 0.9434 | 
| Final CNN with hyperparameter tuning | 9.9922 | 
ل‎ 4R---------- * 
JU EA UI نتائج‎ .9 


نظرًا لأن لدينا بيانات بتنسيق dev «test train‏ لذلك استخدمنا بيانات الاختبار للتحقق من الدقة. 


بعد الاختبار حصلنا على هذه النتائج النهائية: 


verbose-1) 


- 2s 251us/step 


] 


Score = model.evaluate(finaltest,ytest , 
print("Test loss:",score[0]) 

print("Test accuracy:",score[1])$soutput 
Tubo 7S0 [ 


rest loss: 0.0511749743080253 
l'est accuracy: 0.9922886276653909 


= 
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التعلم العميق واستخداماته في المعلوماتية الحيوية 


0. اختبار في العالم الحقيقي 


1. المعالجة المسبقة للتسلسل بأحرف صغيرة وأخذ أقصى طول للتسلسل يبلغ 100. 
2. تعيين حرف إلى فهرس أو شكل رقمي. 
3. استخدام نموذجنا للتنبؤ النهائي بتسلسل بروتين من الأحماض الأمينية. 


def predict(text): 
text-text.lower() 
final-[] 
seqi-[] 
EOE 5 cum EERE) 
EEE CIEE Clee: 1165 s] 
seql.append(str(x)) 
final.append (seq1) 
final sequence -sequence.pad sequences (final, 
maxlen-100,padding-'post') 
nb classes = 24 
targets - np.array(final sequence) 
one hot train = np.eye(nb classes) [targets] 
res-model.predict(one hot train) 
pred - labelencoder.inverse transform([np.argmax (res)]) 
return ("Given protein sequence '()' belongs to class family 
accession 
()".format(text.upper(),pred[0]))predict('hcqltgrapgfghhishshrrtkrr 
fdpnighkrywlpsegrhirltlstkaiktvdti')foutput 
"Given protein sequenc 
'HCOLTGROPGFGHHISHSHRRTKRRFDPNIOHKRYWLPSEGRHIRLTLSTKAIKTVDTI' 
belongs to class family accession PF0083019" 


a7 jo .11‏ من النطاق 
نظرًا لأننا حصلنا على نتيجة جيدة ولكن يمكن تحسينها بشكل أكبر: 
من أجل الحصول على مزيد من الدقة يمكن تدريب النموذج على مجموعة بيانات كبيرة. 
من خلال المزيد من ضبط المعلمات الفائقةء يمكن تحقيق المزيد من الدقة. 
يمكن استخدامه لمشكلة تصنيف تسلسل البروتين الأخرى عن طريق ضبط أو زيادة تعقيد 
النموذج. 
المصدر: 
https://medium.com/(a)jangidajay27 1/pfam-seed-random-split-protein-‏ 


sequence-multu-class- classification-using-deep-learning-a0b172015c67 
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